論文の概要: CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
- arxiv url: http://arxiv.org/abs/2509.14856v1
- Date: Thu, 18 Sep 2025 11:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.187
- Title: CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
- Title(参考訳): CodeFuse-CR-Bench:Pythonプロジェクトにおけるエンドツーエンドのコードレビュー評価のための総合的な評価ベンチマーク
- Authors: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai,
- Abstract要約: CodeFuse-CR-Benchは、リポジトリレベルのCR評価のための、最初の包括性対応ベンチマークである。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
本稿では,この包括的CR課題に対して,最先端の大規模言語モデル(LLM)の大規模評価を行う。
- 参考スコア(独自算出の注目度): 23.9752442213364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.
- Abstract(参考訳): 自動化コードレビュー(CR)は、Large Language Models(LLMs)の重要なアプリケーションであるが、進歩は"現実のギャップ"によって妨げられている。
これは実世界のCRの全体論的文脈に富む性質を反映することができない。
このギャップを埋めるために、リポジトリレベルのCR評価のための最初の包括性対応ベンチマークであるCodeFuse-CR-Benchを紹介します。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
表面的な指標以外にも、位置と構文のルールベースのチェックとレビュー品質のモデルベースの判断を組み合わせた新しい評価フレームワークも提案する。
本稿では,この包括的CRタスクにおける最先端LCMの大規模評価について紹介する。
以上の結果から,(1)単一LLMがCRのすべての面を支配していないこと,(2)Gemini 2.5 Proが最高の総合的な性能を発揮していること,(3)異なるLLMが冗長な文脈に対して堅牢性を示すこと,などが判明した。
これらの知見は、総合的・多次元評価の必要性を強調し、真にインテリジェントで実用的なCRアシスタントを進化させるための実用的な洞察を提供する。
関連論文リスト
- Benchmarking and Studying the LLM-based Code Review [34.93646390349726]
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
論文 参考訳(メタデータ) (2025-09-01T14:13:34Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - CReSt: A Comprehensive Benchmark for Retrieval-Augmented Generation with Complex Reasoning over Structured Documents [6.359764486371197]
大規模言語モデル(LLM)は近年大きく進歩しているが、実用的検索・拡張生成(RAG)シナリオにおけるそれらの能力の評価は依然として困難である。
本稿では,CreSt(構造化文書に対する複雑な推論を伴う検索拡張生成のための総合ベンチマーク)を提案する。
CreStは、構造化文書に対する複雑な推論を必要とする実用的なRAGシナリオをキャプチャするために設計された、英語と韓国語で2,245の人手による注釈付き例で構成されている。
論文 参考訳(メタデータ) (2025-05-23T05:56:25Z) - CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。
CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文 参考訳(メタデータ) (2025-04-29T11:57:23Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models [43.56644186785491]
本稿では,大規模言語モデルが生成するコードの品質を包括的に評価する RACE ベンチマークを提案する。
RACEに基づいて28の代表的なLCMを分析し、現在の正しさ中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要求をキャプチャできないことを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:08:48Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。