論文の概要: Benchmarking and Studying the LLM-based Code Review
- arxiv url: http://arxiv.org/abs/2509.01494v1
- Date: Mon, 01 Sep 2025 14:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.729406
- Title: Benchmarking and Studying the LLM-based Code Review
- Title(参考訳): LLMに基づくコードレビューのベンチマークと検討
- Authors: Zhengran Zeng, Ruikai Shi, Keke Han, Yixin Li, Kaicheng Sun, Yidong Wang, Zhuohao Yu, Rui Xie, Wei Ye, Shikun Zhang,
- Abstract要約: 現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはPR中心のレビューと完全なプロジェクトコンテキストを提供する新しいベンチマークです。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR機能に関する包括的な研究、効果的な拡張アプローチが含まれる。
- 参考スコア(独自算出の注目度): 34.93646390349726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Code Review (ACR) is crucial for software quality, yet existing benchmarks often fail to reflect real-world complexities, hindering the evaluation of modern Large Language Models (LLMs). Current benchmarks frequently focus on fine-grained code units, lack complete project context, and use inadequate evaluation metrics. To address these limitations, we introduce SWRBench , a new benchmark comprising 1000 manually verified Pull Requests (PRs) from GitHub, offering PR-centric review with full project context. SWRBench employs an objective LLM-based evaluation method that aligns strongly with human judgment (~90 agreement) by verifying if issues from a structured ground truth are covered in generated reviews. Our systematic evaluation of mainstream ACR tools and LLMs on SWRBench reveals that current systems underperform, and ACR tools are more adept at detecting functional errors. Subsequently, we propose and validate a simple multi-review aggregation strategy that significantly boosts ACR performance, increasing F1 scores by up to 43.67%. Our contributions include the SWRBench benchmark, its objective evaluation method, a comprehensive study of current ACR capabilities, and an effective enhancement approach, offering valuable insights for advancing ACR research.
- Abstract(参考訳): 自動コードレビュー(ACR)はソフトウェアの品質に不可欠だが、既存のベンチマークでは現実の複雑さを反映できないことが多く、現代のLarge Language Models(LLM)の評価を妨げている。
現在のベンチマークでは、きめ細かいコード単位、完全なプロジェクトコンテキストの欠如、不適切な評価指標の使用に重点を置いています。
SWRBenchはGitHubから手動で検証されたプルリクエスト(PR)1000のベンチマークで、PR中心のレビューと完全なプロジェクトコンテキストを提供する。
SWRBench は LLM に基づく客観的評価手法を採用し、構造化された真実の問題が生成されたレビューでカバーされているかどうかを検証することで、人間の判断(約90 の合意)と強く一致している。
SWRBench 上での ACR ツールと LLM の体系的評価により,現在のシステムでは性能が悪く,ACR ツールの方が機能的エラーの検出に適していることが判明した。
次に、ACRの性能を大幅に向上させ、F1スコアを最大43.67%向上させる簡易なマルチレビューアグリゲーション戦略を提案し、検証する。
我々の貢献には、SWRBenchベンチマーク、その客観的評価方法、現在のACR能力に関する包括的な研究、効果的な拡張アプローチなどが含まれており、ACR研究の進展に有用な洞察を提供する。
関連論文リスト
- AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context [10.769682566098695]
AACR-Benchは、複数のプログラミング言語にまたがる完全なクロスファイルコンテキストを提供する包括的なベンチマークである。
従来のデータセットとは異なり、AACR-Benchは潜伏する欠陥を明らかにするために"AIアシスト、エキスパート検証"のアノテーションパイプラインを使用している。
論文 参考訳(メタデータ) (2026-01-27T11:28:44Z) - Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。
遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文 参考訳(メタデータ) (2026-01-17T20:32:18Z) - CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects [23.9752442213364]
CodeFuse-CR-Benchは、リポジトリレベルのCR評価のための、最初の包括性対応ベンチマークである。
CodeFuse-CR-Benchは、9つのプルリクエスト(PR)問題ドメインをカバーする70のPythonプロジェクトから601の高品質なインスタンスで構成されている。
本稿では,この包括的CR課題に対して,最先端の大規模言語モデル(LLM)の大規模評価を行う。
論文 参考訳(メタデータ) (2025-09-18T11:24:09Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。
本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文 参考訳(メタデータ) (2025-07-25T12:39:03Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - BitsAI-CR: Automated Code Review via LLM in Practice [16.569842114384233]
BitsAI-CRは、2段階のアプローチを通じてコードレビューを強化する革新的なフレームワークである。
システムはレビュールールの包括的な分類に基づいて構築され、データフライホイール機構を実装している。
実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-25T08:39:50Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - DeepCRCEval: Revisiting the Evaluation of Code Review Comment Generation [11.010557279355885]
本研究は,先行研究や開発者インタビューから得られた新しい基準を用いて,ベンチマークコメントを実証的に分析する。
評価フレームワークであるDeepCRCEvalは、人間の評価器とLarge Language Models(LLM)を統合し、現在の手法を総合的に再評価する。
論文 参考訳(メタデータ) (2024-12-24T08:53:54Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。