論文の概要: Does Code Cleanliness Affect Coding Agents? A Controlled Minimal-Pair Study
- arxiv url: http://arxiv.org/abs/2605.20049v1
- Date: Tue, 19 May 2026 16:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.510672
- Title: Does Code Cleanliness Affect Coding Agents? A Controlled Minimal-Pair Study
- Title(参考訳): コードクリーニングはコーディングエージェントに影響を及ぼすか? -ミニペアによる研究-
- Authors: Priyansh Trivedi, Olivier Schmitt,
- Abstract要約: コードのクリーン化がエージェントのナビゲートと修正の能力に影響を与えることを示す。
我々の知見は、従来の保守性原則がAI駆動開発の時代において極めて重要であり続けていることを示唆している。
- 参考スコア(独自算出の注目度): 0.18907108368038217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous coding agents see rapid adoption, their evaluation has primarily focused on task completion rates holding the target codebase fixed. This leaves a critical question unanswered: does the structural and stylistic quality, or ``cleanliness'' of the underlying code affect an agent's ability to navigate and modify it? To isolate the effect of code cleanliness from agent capability, we introduce an evaluation protocol built around minimal pairs: repositories that match on architecture, dependencies, and external behaviour, but differ on static-analysis rule violations and cognitive complexity. The pairs are constructed in both directions, by agent pipelines that either degrade a clean repository or clean a messy one. We author 33 tasks across six such pairs, evaluated through hidden tests at the application's public surface. Across 660 trials with Claude Code, code cleanliness does not change the agent's pass rate. However, it substantially alters the agent's operational footprint: agents working on cleaner code use 7 to 8% fewer tokens and reduce file revisitations by 34%. Our findings suggest that traditional maintainability principles remain highly relevant in the era of AI-driven development, shaping the computational cost and navigational efficiency of coding agents. Code cleanliness joins model choice, harness, and prompting as a factor that materially affects agent behaviours.
- Abstract(参考訳): 自律的なコーディングエージェントが急速に採用されるにつれて、彼らの評価は主に、ターゲットコードベースを固定したタスク完了率に重点を置いている。
構造的かつスタイリスティックな品質、あるいは下層のコードの‘cleanliness’は、エージェントのナビゲートと修正能力に影響を与えますか?
エージェント機能からクリーンなコードの影響を分離するために,アーキテクチャや依存関係,外部動作にマッチするリポジトリ,静的分析ルール違反や認知複雑性といった,最小限のペアを中心に構築された評価プロトコルを導入する。
ペアは、クリーンなリポジトリを分解するか、散らかったリポジトリをクリーンにするエージェントパイプラインによって、両方の方向に構築されます。
6つのペアに33のタスクを記述し、アプリケーションの公開サーフェスに隠されたテストを通じて評価する。
Claude Codeによる660回のトライアルでは、コードのクリーン化はエージェントのパスレートを変えない。
クリーンなコードに取り組んでいるエージェントはトークンを7~8%削減し、ファイル修正を34%削減します。
従来の保守性原則は、AI駆動開発の時代において、計算コストとコーディングエージェントのナビゲーション効率を形作る上で、極めて重要な存在であることが示唆された。
コードのクリーン化は、エージェントの振る舞いに重大な影響を及ぼす要因として、モデルの選択、利用、プロンプトに結びつく。
関連論文リスト
- Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - How to Interpret Agent Behavior [56.59836196946289]
本稿では,エージェントの動作を実行時に記述・解析するための分類法であるACT*ONOMYを紹介する。
共用語彙を提供することで、ACT*ONOMYは研究者、エージェントデザイナー、エンドユーザーがエージェントの振る舞いをより一貫して解釈するのに役立つ。
論文 参考訳(メタデータ) (2026-05-13T14:52:40Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents [0.0]
本稿では,コーディングエージェント(Agentic-PRs)を用いたプルリクエストが,エージェントとしてラベル付けされていないPR(Human-PRs)よりも少ない頻度で受け入れられていることを示す。
拒否されたPRの多くは明確なフィードバックを欠いているため、拒否理由を決定するのが困難である。
論文 参考訳(メタデータ) (2026-02-04T05:24:18Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。