論文の概要: Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice
- arxiv url: http://arxiv.org/abs/2511.07017v1
- Date: Mon, 10 Nov 2025 12:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.233212
- Title: Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice
- Title(参考訳): 豊富なコンテキストを実践したコードレビューのためのLLMのベンチマーク
- Authors: Ruida Hu, Xinchen Wang, Xin-Cheng Wen, Zhao Zhang, Bo Jiang, Pengfei Gao, Chao Peng, Cuiyun Gao,
- Abstract要約: ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。
153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。
レビューワークフローに沿った3つの評価シナリオをサポートする。
- 参考スコア(独自算出の注目度): 18.222990693059756
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code review is a cornerstone of software quality assurance, and recent advances in Large Language Models (LLMs) have shown promise in automating this process. However, existing benchmarks for LLM-based code review face three major limitations. (1) Lack of semantic context: most benchmarks provide only code diffs without textual information such as issue descriptions, which are crucial for understanding developer intent. (2) Data quality issues: without rigorous validation, many samples are noisy-e.g., reviews on outdated or irrelevant code-reducing evaluation reliability. (3) Coarse granularity: most benchmarks operate at the file or commit level, overlooking the fine-grained, line-level reasoning essential for precise review. We introduce ContextCRBench, a high-quality, context-rich benchmark for fine-grained LLM evaluation in code review. Our construction pipeline comprises: (1) Raw Data Crawling, collecting 153.7K issues and pull requests from top-tier repositories; (2) Comprehensive Context Extraction, linking issue-PR pairs for textual context and extracting the full surrounding function or class for code context; and (3) Multi-stage Data Filtering, combining rule-based and LLM-based validation to remove outdated, malformed, or low-value samples, resulting in 67,910 context-enriched entries. ContextCRBench supports three evaluation scenarios aligned with the review workflow: (1) hunk-level quality assessment, (2) line-level defect localization, and (3) line-level comment generation. Evaluating eight leading LLMs (four closed-source and four open-source) reveals that textual context yields greater performance gains than code context alone, while current LLMs remain far from human-level review ability. Deployed at ByteDance, ContextCRBench drives a self-evolving code review system, improving performance by 61.98% and demonstrating its robustness and industrial utility.
- Abstract(参考訳): コードレビューは、ソフトウェアの品質保証の基盤であり、最近のLarge Language Models(LLMs)の進歩は、このプロセスを自動化することを約束している。
しかし、LLMベースのコードレビューの既存のベンチマークは、3つの大きな制限に直面している。
1)セマンティックコンテキストの欠如:ほとんどのベンチマークは、問題記述などのテキスト情報のないコード差分しか提供しないが、これは開発者の意図を理解するのに不可欠である。
2) データ品質の問題:厳格な検証なしに、多くのサンプルはノイズの多い例である。
(3) 粗い粒度: ほとんどのベンチマークはファイルやコミットレベルで動作し、正確なレビューに不可欠なきめ細かいラインレベルの推論を見渡せる。
コードレビューにおいて、精細なLCM評価のための高品質でコンテキストに富んだベンチマークであるContextCRBenchを紹介する。
1)データクローリング,153.7Kイシューの収集,トップ層リポジトリからのプルリクエストの収集,(2)コンテキスト抽出,テキストコンテキスト用のイシュー-PRペアのリンク,コードコンテキスト用のフル周辺関数やクラス抽出,(3)ルールベースとLLMベースのバリデーションを組み合わせた多段階データフィルタリングにより,古い,不正な,あるいは低値のサンプルを削除し,67,910のコンテキスト豊富なエントリが生成される。
ContextCRBenchは、(1)ハンクレベルの品質評価、(2)ラインレベルの欠陥ローカライゼーション、(3)ラインレベルのコメント生成の3つの評価シナリオをサポートする。
8つの主要なLLM(4つのクローズドソースと4つのオープンソース)を評価すると、テキストコンテキストはコードコンテキスト単独よりもパフォーマンスが向上する一方、現在のLLMは人間レベルのレビュー能力から遠ざかっている。
ByteDanceでデプロイされたContextCRBenchは、自己進化的なコードレビューシステムを駆動し、パフォーマンスを61.98%向上し、堅牢性と産業的有用性を実証している。
関連論文リスト
- Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation [3.9189409002585567]
大規模言語モデル(LLM)は関数レベルのコード生成ベンチマークで強い性能を示している。
本稿では,実環境下での一般化を評価するために,実世界のオープンソースリポジトリから得られたベンチマークを紹介する。
入力仕様の完全性と検索拡張生成が複数の最先端LCMのクラスレベルの正しさにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-30T04:30:23Z) - CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects [23.9752442213364]
CodeFuse-CR-Benchは、リポジトリレベルのCR評価のための、最初の包括性対応ベンチマークである。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
本稿では,この包括的CR課題に対して,最先端の大規模言語モデル(LLM)の大規模評価を行う。
論文 参考訳(メタデータ) (2025-09-18T11:24:09Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。