論文の概要: How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions
- arxiv url: http://arxiv.org/abs/2605.29442v1
- Date: Thu, 28 May 2026 06:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.857928
- Title: How Coding Agents Fail Their Users: A Large-Scale Analysis of Developer-Agent Misalignment in 20,574 Real-World Sessions
- Title(参考訳): コーディングエージェントがユーザを損なう方法: 20,574のリアルタイムセッションにおける開発者エージェントのミス修正の大規模分析
- Authors: Ningzhi Tang, Chaoran Chen, Gelei Xu, Yiyu Shi, Yu Huang, Collin McMillan, Tao Dong, Toby Jia-Jun Li,
- Abstract要約: 私たちは、開発者のプッシュバックを通じて見通せるように、誤った調整を運用しています。
エージェントがプロジェクトを読み、開発者意図を解釈し、ルールに従い、アクションをバウンドし、コードを実装し、実行し、進捗を報告する7つの繰り返しフォームを特定します。
本研究は,実際の開発者とコーディングエージェントの整合性を維持するためのトレーニング,評価,インターフェースの設計について報告する。
- 参考スコア(独自算出の注目度): 16.8655550230265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents increasingly act directly within software environments, yet existing analyses of their failures rely on benchmark trajectories that miss how developers actually experience misalignment. We present an observational study of 20,574 coding-agent sessions from 1,639 repositories across IDE and CLI workflows. We operationalize misalignment as a breakdown made visible through developer pushback, and annotate each episode along four axes: form, cause, cost, and resolution. We identify seven recurring forms, spanning how agents read projects, interpret developer intent, follow rules, bound their actions, implement and execute code, and report progress. 90.50\% of episodes impose effort and trust costs rather than irreversible system damage, yet 91.49\% of visible resolutions still require explicit user correction. Misalignment patterns also differ across IDE and CLI settings, persist across adjacent sessions, and shift over time: while overall rates decline, constraint violations and inaccurate self-reporting grow in share. Our findings inform the design of training, evaluation, and interfaces for keeping coding agents aligned with real developer workflows.
- Abstract(参考訳): AIコーディングエージェントは、ソフトウェア環境内で直接行動する傾向にあるが、既存の失敗の分析は、開発者が実際にミスアライメントを経験する方法を見逃すベンチマークトラジェクトリに依存している。
IDEとCLIワークフロー全体で1,639のリポジトリから20,574のコーディングエージェントセッションを観察した。
私たちは、開発者のプッシュバックを通じて見えるブレークダウンとしてミスアライメントを運用し、各エピソードを4つの軸(形状、原因、コスト、解像度)に沿って注釈付けします。
エージェントがプロジェクトを読み、開発者意図を解釈し、ルールに従い、アクションをバウンドし、コードを実装し、実行し、進捗を報告する7つの繰り返しフォームを特定します。
90.50\%のエピソードは、不可逆的なシステム損傷よりも、努力と信頼のコストを課すが、91.49\%の可視解像度は明示的なユーザー修正を必要とする。
IDEやCLIの設定にも相違があり、隣接するセッションにまたがって継続し、時間とともにシフトする。
この結果から,実際の開発者ワークフローとコーディングエージェントの整合性を維持するためのトレーニング,評価,インターフェースの設計が示唆された。
関連論文リスト
- ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution [5.10403054516716]
既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。
本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T13:44:40Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Beyond Final Code: A Process-Oriented Error Analysis of Software Development Agents in Real-World GitHub Scenarios [31.749442120603774]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。
私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文 参考訳(メタデータ) (2025-03-16T06:24:51Z) - Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents [31.126001253902416]
本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。
StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。
以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
論文 参考訳(メタデータ) (2024-12-24T11:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。