論文の概要: A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era
- arxiv url: http://arxiv.org/abs/2602.13377v1
- Date: Fri, 13 Feb 2026 18:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.00797
- Title: A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era
- Title(参考訳): LLMおよびLLM時代のコードレビューベンチマークと評価実践に関する調査
- Authors: Taufiqul Islam Khan, Shaowei Wang, Haoxiang Zhang, Tse-Hsun Chen,
- Abstract要約: コードレビューは、開発者が欠陥を早期に検出し、コード品質を改善し、知識共有を促進するのに役立つ、現代のソフトウェアエンジニアリングにおける重要なプラクティスである。
大規模言語モデル(LLM)の急速な進歩により、コードレビューの自動化サポートについて研究が進められている。
現在のコードレビューデータセットは散在しており、設計は様々であり、レビュー機能が実際に評価されているかについての限られた洞察を提供する。
- 参考スコア(独自算出の注目度): 10.935053388447372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code review is a critical practice in modern software engineering, helping developers detect defects early, improve code quality, and facilitate knowledge sharing. With the rapid advancement of large language models (LLMs), a growing body of work has explored automated support for code review. However, progress in this area is hindered by the lack of a systematic understanding of existing benchmarks and evaluation practices. Current code review datasets are scattered, vary widely in design, and provide limited insight into what review capabilities are actually being assessed. In this paper, we present a comprehensive survey of code review benchmarks spanning both the Pre-LLM and LLM eras (2015--2025). We analyze 99 research papers (58 Pre-LLM era and 41 LLM era) and extract key metadata, including datasets, evaluation metrics, data sources, and target tasks. Based on this analysis, we propose a multi-level taxonomy that organizes code review research into five domains and 18 fine-grained tasks. Our study reveals a clear shift toward end-to-end generative peer review, increasing multilingual coverage, and a decline in standalone change understanding tasks. We further identify limitations of current benchmarks and outline future directions, including broader task coverage, dynamic runtime evaluation, and taxonomy-guided fine-grained assessment. This survey provides a structured foundation for developing more realistic and comprehensive benchmarks for LLM-based code review.
- Abstract(参考訳): コードレビューは、開発者が欠陥を早期に検出し、コード品質を改善し、知識共有を促進するのに役立つ、現代のソフトウェアエンジニアリングにおける重要なプラクティスである。
大規模言語モデル(LLM)の急速な進歩により、コードレビューの自動化サポートについて研究が進められている。
しかし、この分野の進歩は、既存のベンチマークと評価プラクティスの体系的な理解の欠如によって妨げられている。
現在のコードレビューデータセットは散在しており、設計は様々であり、レビュー機能が実際に評価されているかについての限られた洞察を提供する。
本稿では,pre-LLM と LLM 時代 (2015-2025) にまたがるコードレビューベンチマークを包括的に調査する。
我々は99の論文(58のLLM時代と41のLDM時代)を分析し、データセット、評価指標、データソース、ターゲットタスクを含む重要なメタデータを抽出する。
そこで本研究では,コードレビュー研究を5つの領域と18のきめ細かいタスクに分類する多段階分類法を提案する。
本研究は、エンドツーエンドのピアレビューへの明確なシフト、多言語カバレッジの向上、スタンドアローンの変更理解タスクの減少を明らかにした。
さらに、現在のベンチマークの限界を特定し、より広範なタスクカバレッジ、動的ランタイム評価、分類誘導によるきめ細かい評価など、今後の方向性を概説する。
この調査は、LCMベースのコードレビューのためのより現実的で包括的なベンチマークを開発するための構造化された基盤を提供する。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。
自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (2024-08-29T12:56:06Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。