論文の概要: Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests
- arxiv url: http://arxiv.org/abs/2601.04886v1
- Date: Thu, 08 Jan 2026 12:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.199888
- Title: Analyzing Message-Code Inconsistency in AI Coding Agent-Authored Pull Requests
- Title(参考訳): AI符号化エージェント認証プルリクエストにおけるメッセージコード不整合の解析
- Authors: Jingzhi Gong, Giovanni Pinna, Yixin Bian, Jie M. Zhang,
- Abstract要約: AIコーディングエージェントによって生成されたプルリクエスト記述は、人間のレビュアーにコード変更を伝えるための主要なチャネルである。
PRメッセージコード不整合(PR-MCI)を用いた5エージェントにわたるエージェントPR23,247の解析を行った。
高MCIのPRは51.7%減少し、合併までに3.5倍の期間を要した。
- 参考スコア(独自算出の注目度): 5.885226503818935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pull request (PR) descriptions generated by AI coding agents are the primary channel for communicating code changes to human reviewers. However, the alignment between these messages and the actual changes remains unexplored, raising concerns about the trustworthiness of AI agents. To fill this gap, we analyzed 23,247 agentic PRs across five agents using PR message-code inconsistency (PR-MCI). We contributed 974 manually annotated PRs, found 406 PRs (1.7%) exhibited high PR-MCI, and identified eight PR-MCI types, revealing that descriptions claiming unimplemented changes was the most common issue (45.4%). Statistical tests confirmed that high-MCI PRs had 51.7% lower acceptance rates (28.3% vs. 80.0%) and took 3.5x longer to merge (55.8 vs. 16.0 hours). Our findings suggest that unreliable PR descriptions undermine trust in AI agents, highlighting the need for PR-MCI verification mechanisms and improved PR generation to enable trustworthy human-AI collaboration.
- Abstract(参考訳): AIコーディングエージェントによって生成されたプルリクエスト(PR)記述は、人間のレビュアーにコード変更を伝えるための主要なチャネルである。
しかし、これらのメッセージと実際の変更との整合性は未解明のままであり、AIエージェントの信頼性に対する懸念が高まっている。
このギャップを埋めるために,PRメッセージコード不整合(PR-MCI)を用いて5つのエージェント間で23,247個のエージェントPRを解析した。
974件の注釈付きPRに寄与し,406件のPR (1.7%) が高PR-MCIを示し,8件のPR-MCIタイプを同定したところ,未実装の変更を主張する記述が最も多い問題(45.4%)であることが判明した。
統計検査の結果、高いMCIのPRは51.7%低い受け入れ率(28.3%対80.0%)であり、合併まで3.5倍の時間(55.8対16.0時間)を要した。
以上の結果から,信頼できないPR記述がAIエージェントの信頼を損なうことが示唆され,PR-MCI検証機構の必要性と,信頼性の高い人間-AIコラボレーションを実現するためのPR生成の改善が強調された。
関連論文リスト
- Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub [4.409447722044799]
本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。
AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。
次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
論文 参考訳(メタデータ) (2026-01-01T21:14:11Z) - To Err Is Human: Systematic Quantification of Errors in Published AI Papers via LLM Analysis [47.124493265404595]
我々の分析は客観的な誤り(例えば、公式の誤り、導出、計算、数値、表など)に焦点を当てており、それは明らかに検証可能な基礎的な真実である。
論文は、未確認の客観的な誤り数を含み、NeurIPS 2021の3.8からNeurIPS 2025の5.9(55.3%)まで、紙1枚あたりの誤り数の平均が時間とともに増加したことが判明した。
我々は、AIチェッカーが特定ミスの75.8%の修正を提案できることを示す。
論文 参考訳(メタデータ) (2025-12-05T18:04:10Z) - The AI Attribution Paradox: Transparency as Social Strategy in Open-Source Software Development [0.0]
私たちは、2023-2025の7,393リポジトリにまたがる14,300のGitHubコミットを分析します。
我々は8つの主要なAIツールの属性戦略とコミュニティ対応を調査した。
開発者はコミュニティの精査を管理することで、AI支援の認知と戦略的にバランスをとることができる。
論文 参考訳(メタデータ) (2025-11-30T12:30:55Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - SLEAN: Simple Lightweight Ensemble Analysis Network for Multi-Provider LLM Coordination: Design, Implementation, and Vibe Coding Bug Investigation Case Study [0.0]
SLEANは、.txtテンプレートを使用してLLM間の単純なプロンプトブリッジとして機能し、デプロイに深い技術知識を必要としない。
独立した分析、相互批判、仲裁によって形成される3フェーズプロトコルは、有害なAI生成コード提案をフィルタリングする。
ファイル駆動でプロバイダに依存しないアーキテクチャは、特別なコーディング専門知識のないデプロイメントを可能にします。
論文 参考訳(メタデータ) (2025-10-11T04:24:04Z) - AutoPR: Let's Automate Your Academic Promotion! [50.929742814819036]
本稿では,研究論文を正確な,エンゲージメント,タイムリーな公開コンテンツに変換する新しいタスクであるAutoPRを紹介する。
PRAgentは、AutoPRを3段階で自動化するマルチエージェントフレームワークである。コンテンツ抽出、協調合成、標準の最適化、トーン、最大リーチのためのタグ付けのプラットフォーム固有の適応である。
結果は,AutoPRをトラクタブルで測定可能な研究課題と位置づけ,スケーラブルで影響力のある学術的コミュニケーションのためのロードマップを提供する。
論文 参考訳(メタデータ) (2025-10-10T17:08:36Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。