論文の概要: Improving LLM-Based Go Code Review through Issue-List Generation and Context Augmentation
- arxiv url: http://arxiv.org/abs/2606.01859v1
- Date: Mon, 01 Jun 2026 08:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.600384
- Title: Improving LLM-Based Go Code Review through Issue-List Generation and Context Augmentation
- Title(参考訳): 課題リスト生成とコンテキスト拡張によるLLMベースのGoコードレビューの改善
- Authors: Kexin Sun, Yucong Guan, Jiaqi Sun, Hongyu Kuang, Guoping Rong, Dong Shao, He Zhang, Xiaoxing Ma, Christoph Treude,
- Abstract要約: 本稿では,LSMが最重要事項のみを報告するのではなく,潜在的な問題をすべて列挙する課題リストレビューパラダイムを提案する。
次に、隣人、LSPベースのセマンティクス、IRベースの同様のコチェンジコンテキストの3つのタイプのコードコンテキスト拡張を比較します。
提案手法は,非コンテキストおよび文脈拡張世代から候補を統合してレビューカバレッジを向上させるとともに,改良誘導プルーニングを導入し,候補リストを実用的規模に維持する。
- 参考スコア(独自算出の注目度): 20.19657859180513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have shown strong potential for automating code review, yet their practical utility depends heavily on the design of generation and context strategies. In this paper, we investigate how to improve LLM-based code review through generation strategy and contextual augmentation. We first propose an issue-list review paradigm, in which LLMs enumerate all potential issues rather than reporting only the single most important one (i.e., primary-issue review). We then systematically compare three types of code context augmentation -- neighboring, LSP-based semantics, and IR-based similar co-change context -- and study how they influence issue discovery. Finally, we integrate candidates from no-context and context-enhanced generation to improve review coverage, and introduce refinement-guided pruning to keep the candidate list at a practical size. We evaluate our approach on 1,438 Go review instances using downstream code refinement as the main metric, i.e., how often the candidate list contains at least one comment inducing the same code change as the final human revision. For comparison, we evaluate comments by CodeReviewer, a model trained specifically for review comment generation, as well as ground-truth human review comments (as a practical upper bound), under the same refinement-based evaluation. The results show that our best configuration, combining issue-list review, neighboring and similar co-change context, and candidate integration, reaches 28.00% refinement exact match, a statistically significant gain of +10.85 percentage points over primary-issue review without any additional context (17.15%), substantially outperforming CodeReviewer (15.02%) and approaching the human-oracle ceiling of 36.09%. Our refinement-guided pruning reduces the average candidate count from 7.2 to 3.1 at top-5 while retaining nearly the full benefit, making the candidate list easier to inspect.
- Abstract(参考訳): LLMはコードレビューを自動化する強力な可能性を示しているが、その実用性は生成戦略とコンテキスト戦略に大きく依存している。
本稿では,ジェネレーション戦略と文脈拡張によりLCMに基づくコードレビューを改善する方法について検討する。
まず, LLM は最も重要な問題のみを報告するのではなく,全ての潜在的な問題を列挙する問題リストレビューパラダイムを提案する。
次に、隣人、LSPベースのセマンティクス、IRベースの同様のコチェンジコンテキストの3つのタイプのコードコンテキスト拡張を体系的に比較し、それらが問題発見にどのように影響するかを研究します。
最後に、非コンテキストおよびコンテキスト拡張世代からの候補を統合し、レビューカバレッジを改善し、改良誘導プルーニングを導入し、候補リストを実用規模に維持する。
我々は、ダウンストリームコードリファインメントを主要な指標として用いた1,438のGoレビューインスタンスに対するアプローチを評価する。
比較のために、我々は、レビューコメント生成に特化したモデルであるCodeReviewerのコメントを評価し、また、同じ洗練に基づく評価の下で、(実用的な上限として)基礎的な人間のレビューコメントを評価した。
その結果, 課題リストのレビュー, 近隣および類似の共変化コンテキスト, および候補統合を組み合わせた最適構成が, 精度28.00%, 統計的に有意な増加率+10.85ポイント, 追加コンテキストのない初号レビュー(17.15%), コードレビューア(15.02%) を大幅に上回り, 人体天井に近づいた36.09%, という結果が得られた。
改良誘導プルーニングにより,トップ5における平均候補数を7.2から3.1に減らし,全体の利益をほぼ維持し,候補リストの検査が容易になる。
関連論文リスト
- Understanding Dominant Themes in Reviewing Agentic AI-authored Code [6.183483850365225]
実世界のGitHubリポジトリから,3,177件のエージェントによるPRにまたがる19,450件のインラインレビューコメントを分析した。
AIエージェントはコード生成を加速できるが、対象とする人間レビューの監視を必要とするギャップは依然として残っている。
論文 参考訳(メタデータ) (2026-01-27T07:21:09Z) - Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。
遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文 参考訳(メタデータ) (2026-01-17T20:32:18Z) - Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice [18.222990693059756]
ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。
153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。
レビューワークフローに沿った3つの評価シナリオをサポートする。
論文 参考訳(メタデータ) (2025-11-10T12:06:35Z) - LLMCup: Ranking-Enhanced Comment Updating with LLMs [8.12420131928042]
大きな言語モデル(LLM)は、コメント生成、コード合成、プログラムの修復といったソフトウェア工学のタスクにおいて素晴らしいパフォーマンスを示している。
LLMCupという新しいコメント更新フレームワークを提案する。このフレームワークはまず複数のプロンプト戦略を用いて,LSMを介して多種多様な候補更新コメントを提供する。
論文 参考訳(メタデータ) (2025-07-11T15:11:27Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。