論文の概要: Understanding the Limits of Automated Evaluation for Code Review Bots in Practice
- arxiv url: http://arxiv.org/abs/2604.24525v1
- Date: Mon, 27 Apr 2026 14:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.082242
- Title: Understanding the Limits of Automated Evaluation for Code Review Bots in Practice
- Title(参考訳): コードレビューボットにおける自動評価の限界を理解する
- Authors: Veli Karakaya, Utku Boran Torun, Baykal Mehmet Uçar, Eray Tüzün,
- Abstract要約: 我々は、2,604のボット生成PRコメントの産業データセットを分析し、それぞれがソフトウェアエンジニアによって固定/置換Fixとしてラベル付けされている。
G-Eval と LLM-as-a-Judge パイプラインという2つの自動評価手法をバイナリ決定と 0-4 Likert-scale の定式化の両方を用いて適用した。
どちらの評価戦略も、人間のラベルとの適度なアライメントしか達成していない。
- 参考スコア(独自算出の注目度): 1.3241176321860364
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated code review (ACR) bots are increasingly used in industrial software development to assist developers during pull request (PR) review. As adoption grows, a key challenge is how to evaluate the usefulness of bot-generated comments reliably and at scale. In practice, such evaluation often relies on developer actions and annotations that are shaped by contextual and organizational factors, complicating their use as objective ground truth. We examine the feasibility and limitations of automating the evaluation of LLM-powered ACR bots in an industrial setting. We analyze an industrial dataset from Beko comprising 2,604 bot-generated PR comments, each labeled by software engineers as fixed/wontFix. Two automated evaluation approaches, G-Eval and an LLM-as-a-Judge pipeline, are applied using both binary decisions and a 0-4 Likert-scale formulation, enabling a controlled comparison against developer-provided labels. Across Gemini-2.5-pro, GPT-4.1-mini, and GPT-5.2, both evaluation strategies achieve only moderate alignment with human labels. Agreement ratios range from approximately 0.44 to 0.62, with noticeable variation across models and between binary and Likert-scale formulations, indicating sensitivity to both model choice and evaluation design. Our findings highlight practical limitations in fully automating the evaluation of ACR bot comments in industrial contexts. Developer actions such as resolving or ignoring comments reflect not only comment quality, but also contextual constraints, prioritization decisions, and workflow dynamics that are difficult to capture through static artifacts. Insights from a follow-up interview with a software engineering director further corroborate that developer labeling behavior is strongly influenced by workflow pressures and organizational constraints, reinforcing the challenges of treating such signals as objective ground truth.
- Abstract(参考訳): 自動コードレビュー(ACR)ボットは、プルリクエスト(PR)レビュー中の開発者を支援するために、産業ソフトウェア開発でますます利用されている。
採用が進むにつれ、ボット生成コメントの有用性を、大規模かつ確実に評価する上で重要な課題となる。
実際には、このような評価はしばしば、文脈的および組織的要因によって形成された開発者アクションやアノテーションに依存し、客観的な基礎的真実としての使用を複雑にしている。
産業環境でのLCM駆動型ACRボットの評価の自動化の実現可能性と限界について検討する。
2,604件のボット生成PRコメントからなるBekoの産業データセットを分析し、それぞれがソフトウェアエンジニアによって固定/無効Fixとしてラベル付けされている。
G-Eval と LLM-as-a-Judge パイプラインという2つの自動評価手法をバイナリ決定と 0-4 Likert-scale の定式化の両方を用いて適用し,開発者が提供するラベルとの制御比較を可能にする。
Gemini-2.5-pro、GPT-4.1-mini、GPT-5.2の2つの評価戦略は、ヒトのラベルとの中間的なアライメントしか達成していない。
コンセンサス比はおよそ0.44から0.62の範囲で、モデル間での顕著な変動と、モデル選択と評価設計の両方に対する感度を示す二項式と類似のスケールの定式化がある。
本研究は,産業環境下でのACRボットコメントの評価を完全自動化する実践的制限を強調した。
コメントの解決や無視といった開発者のアクションは、コメントの品質だけでなく、コンテキスト制約、優先順位決定、静的アーティファクトをキャプチャするのが難しいワークフローのダイナミクスも反映している。
ソフトウェアエンジニアリングディレクタとのフォローアップインタビューからの洞察は、開発者のラベリング行動がワークフローのプレッシャーや組織的制約に強く影響し、そのようなシグナルを客観的な根拠の真実として扱うことの課題を補強する、ということをさらに裏付けるものだ。
関連論文リスト
- CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents [0.7496422063843831]
我々は、ベンチマークデータセットであるCR-Benchと、コードレビューエージェントのためのきめ細かい評価パイプラインであるCR-Evaluatorを紹介する。
コードレビューエージェントは、隠されたすべての問題を特定するために設計された場合、低信号対雑音比を示すことができる。
本分析では,課題解決と突発的な発見との間に隠されたトレードオフを明らかにし,効果的なエージェント設計を制約するフロンティアを明らかにした。
論文 参考訳(メタデータ) (2026-03-10T21:29:42Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - Towards Practical Defect-Focused Automated Code Review [8.370750734081088]
オンラインレコメンデーションサービスの中で、業界レベルのC++を分析しながら、完全な自動化パイプラインを調査します。
1)関連コンテキストの取得,2)キーインクルージョンの改善,3)偽アラーム率(FAR)の低減,4)人間のバグスライシングの統合。
提案手法は, 既往の断層記録からの実世界のマージ要求に基づいて検証され, 従来のLLMよりも2倍, 以前のベースラインより10倍向上した。
論文 参考訳(メタデータ) (2025-05-23T14:06:26Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - BitsAI-CR: Automated Code Review via LLM in Practice [16.569842114384233]
BitsAI-CRは、2段階のアプローチを通じてコードレビューを強化する革新的なフレームワークである。
システムはレビュールールの包括的な分類に基づいて構築され、データフライホイール機構を実装している。
実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-25T08:39:50Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。