論文の概要: CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents
- arxiv url: http://arxiv.org/abs/2603.11078v1
- Date: Tue, 10 Mar 2026 21:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.501166
- Title: CR-Bench: Evaluating the Real-World Utility of AI Code Review Agents
- Title(参考訳): CR-Bench: AIコードレビューエージェントの現実世界の有用性を評価する
- Authors: Kristen Pereira, Neelabh Sinha, Rajat Ghosh, Debojyoti Dutta,
- Abstract要約: 我々は、ベンチマークデータセットであるCR-Benchと、コードレビューエージェントのためのきめ細かい評価パイプラインであるCR-Evaluatorを紹介する。
コードレビューエージェントは、隠されたすべての問題を特定するために設計された場合、低信号対雑音比を示すことができる。
本分析では,課題解決と突発的な発見との間に隠されたトレードオフを明らかにし,効果的なエージェント設計を制約するフロンティアを明らかにした。
- 参考スコア(独自算出の注目度): 0.7496422063843831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in frontier large language models have enabled code review agents that operate in open-ended, reasoning-intensive settings. However, the lack of standardized benchmarks and granular evaluation protocols makes it difficult to assess behavior of code review agents beyond coarse success metrics, particularly for tasks where false positives are costly. To address this gap, we introduce CR-Bench, a benchmarking dataset, and CR-Evaluator, a fine-grained evaluation pipeline for code review agents. Using these tools, we conduct a preliminary study evaluating both a single-shot agent and a Reflexion-based agent across two frontier models. We find that code review agents can exhibit a low signal-to-noise ratio when designed to identify all hidden issues, obscuring true progress and developer productivity when measured solely by resolution rates. Our analysis identifies the hidden trade-off between issue resolution and spurious findings, revealing a frontier that constrains effective agent design. Together, CR-Bench and CR-Evaluator provide a timely foundation for studying and developing code review agents as LLM-based systems transition from controlled benchmarks to real-world software engineering workflows.
- Abstract(参考訳): 最先端の大規模言語モデルの最近の進歩は、オープンエンドの推論集約的な設定で動作するコードレビューエージェントを可能にしている。
しかし、標準化されたベンチマークと粒度評価プロトコルが欠如しているため、特に偽陽性がコストがかかるタスクにおいて、粗い成功指標以上のコードレビューエージェントの振る舞いを評価することは困難である。
このギャップに対処するために、ベンチマークデータセットであるCR-Benchと、コードレビューエージェントのためのきめ細かい評価パイプラインであるCR-Evaluatorを紹介する。
これらのツールを用いて、2つのフロンティアモデルにまたがる単発エージェントと反射型エージェントの両方を評価する予備的研究を行った。
コードレビューエージェントは、すべての隠れた問題を識別し、解決率だけで測定した場合、真の進歩と開発者の生産性を目立たせるように設計された場合、低信号対雑音比を示すことができる。
本分析では,課題解決と突発的な発見との間に隠されたトレードオフを明らかにし,効果的なエージェント設計を制約するフロンティアを明らかにした。
CR-BenchとCR-Evaluatorは共に、LLMベースのシステムが制御されたベンチマークから実際のソフトウェアエンジニアリングワークフローへ移行する際の、コードレビューエージェントの研究と開発のためのタイムリーな基盤を提供する。
関連論文リスト
- The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Issue-Oriented Agent-Based Framework for Automated Review Comment Generation [15.04868140672973]
RevAgentは、コードレビューコメントのための新しいエージェントベースのイシュー指向フレームワークである。
タスクは生成、識別、訓練の3段階に分けられる。
最先端のPLMとLMベースのベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-01T11:44:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - Benchmarking and Studying the LLM-based Code Review [34.93646390349726]
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
論文 参考訳(メタデータ) (2025-09-01T14:13:34Z) - XBOUND: Exploring Capability Boundaries of Device-Control Agents at the State Level [43.73689966281675]
Device-Control Agents(DCエージェント)はグラフィカルユーザインタフェース(GUI)を管理する
状態ごとの命令完了の精度を評価するための新しい評価手法 XBOUND を提案する。
UI-TARSは最強の7Bモデルであり、現在のエージェントは命令統一においてバイモーダルなパフォーマンスパターンを示し、サブ7Bモデルは状態熟達において制限されている。
論文 参考訳(メタデータ) (2025-05-27T14:49:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。