論文の概要: Understanding Dominant Themes in Reviewing Agentic AI-authored Code
- arxiv url: http://arxiv.org/abs/2601.19287v1
- Date: Tue, 27 Jan 2026 07:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:51:51.992396
- Title: Understanding Dominant Themes in Reviewing Agentic AI-authored Code
- Title(参考訳): エージェントAIによるコードレビューにおける支配的テーマの理解
- Authors: Md. Asif Haider, Thomas Zimmermann,
- Abstract要約: 実世界のGitHubリポジトリから,3,177件のエージェントによるPRにまたがる19,450件のインラインレビューコメントを分析した。
AIエージェントはコード生成を加速できるが、対象とする人間レビューの監視を必要とするギャップは依然として残っている。
- 参考スコア(独自算出の注目度): 6.183483850365225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While prior work has examined the generation capabilities of Agentic AI systems, little is known about how reviewers respond to AI-authored code in practice. In this paper, we present a large-scale empirical study of code review dynamics in agent-generated PRs. Using a curated subset of the AIDev dataset, we analyze 19,450 inline review comments spanning 3,177 agent-authored PRs from real-world GitHub repositories. We first derive a taxonomy of 12 review comment themes using topic modeling combined with large language model (LLM)-assisted semantic clustering and consolidation. According to this taxonomy, we then investigate whether zero-shot prompts to LLM can reliably annotate review comments. Our evaluation against human annotations shows that open-source LLM achieves reasonably high exact match (78.63%), macro F1 score (0.78), and substantial agreement with human annotators at the review comment level. At the PR level, the LLM also correctly identifies the dominant review theme with 78% Top-1 accuracy and achieves an average Jaccard similarity of 0.76, indicating strong alignment with human judgments. Applying this annotation pipeline at scale, we find that apart from functional correctness and logical changes, reviews of agent-authored PRs predominantly focus on documentation gaps, refactoring needs, styling and formatting issues, with testing and security-related concerns. These findings suggest that while AI agents can accelerate code production, there remain gaps requiring targeted human review oversight.
- Abstract(参考訳): 以前の研究ではエージェントAIシステムの生成能力について検討されているが、レビュアーが実際にAIによって認可されたコードにどのように反応するかはほとんど分かっていない。
本稿では,エージェント生成PRにおけるコードレビューダイナミクスの大規模な実証的研究について述べる。
AIDevデータセットのキュレートされたサブセットを使用して、現実世界のGitHubリポジトリから3,177のエージェントによるPRにまたがる19,450のインラインレビューコメントを分析します。
まず、トピックモデリングと大言語モデル(LLM)を用いたセマンティッククラスタリングと統合を組み合わせた12のレビューテーマの分類を導出する。
本分類では, LLMに対するゼロショットプロンプトがレビューコメントを確実に注釈付けできるかどうかを検討する。
人間のアノテーションに対する評価は,オープンソース LLM が合理的に高い精度(78.63%),マクロF1スコア(0.78),およびレビューコメントレベルでの人間アノテーションとの相当な一致を実現していることを示している。
PRレベルでは、LLMは、支配的なレビューテーマを78%のTop-1精度で正しく識別し、平均的なジャカード類似度0.76を達成し、人間の判断と強く一致していることを示している。
このアノテーションパイプラインを大規模に適用すると、機能的正当性と論理的変更とは別に、エージェントが承認したPRのレビューは、ドキュメントのギャップ、リファクタリングのニーズ、スタイリングとフォーマットの問題、テストとセキュリティ関連の懸念に重点を置いていることが分かります。
これらの結果は、AIエージェントがコード生成を加速できる一方で、対象とする人間レビューの監視を必要とするギャップが依然として残っていることを示唆している。
関連論文リスト
- ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review [23.630458187587223]
ReviewerTooは、AI支援ピアレビューの研究とデプロイのためのフレームワークである。
専門的なレビュアー・ペルソナと構造化された評価基準による体系的な実験を支援する。
私たちは、複雑な評価判断をドメインの専門家に任せながら、AIが一貫性、カバレッジ、公平性を高める方法を示します。
論文 参考訳(メタデータ) (2025-10-09T23:53:19Z) - When Your Reviewer is an LLM: Biases, Divergence, and Prompt Injection Risks in Peer Review [34.067892820832405]
本稿では,学術レビュアーとして大規模言語モデル(LLM)を体系的に評価する。
ICLR 2023とNeurIPS 2022の1,441論文のキュレートされたデータセットを用いて、評価、強度、弱点を越えて、GPT-5-miniをヒトレビュアーに対して評価した。
以上の結果から, LLMは, より弱い論文に対する評価を一貫して向上させつつ, より強いコントリビューションに対する人間の判断と密に一致させることが示唆された。
論文 参考訳(メタデータ) (2025-09-12T00:57:50Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews [24.566487721847597]
学術論文レビュー(Academic paper review)は、研究コミュニティにおける批判的だが時間を要する課題である。
学術出版物の増加に伴い、レビュープロセスの自動化が大きな課題となっている。
大規模言語モデル(LLM)を利用して学術論文レビューを生成するフレームワークであるReviewAgentsを提案する。
論文 参考訳(メタデータ) (2025-03-11T14:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。