論文の概要: LAURA: Enhancing Code Review Generation with Context-Enriched Retrieval-Augmented LLM
- arxiv url: http://arxiv.org/abs/2512.01356v1
- Date: Mon, 01 Dec 2025 07:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.735429
- Title: LAURA: Enhancing Code Review Generation with Context-Enriched Retrieval-Augmented LLM
- Title(参考訳): LAURA: コンテキスト拡張検索拡張LDMによるコードレビュー生成の強化
- Authors: Yuxin Zhang, Yuxia Zhang, Zeyu Sun, Yanjie Jiang, Hui Liu,
- Abstract要約: 本稿では,LAURA というコードレビュー生成のための LLM ベースの知識付加型コンテキスト認識フレームワークを提案する。
このフレームワークは、コードレビューコメントの生成におけるChatGPT-4oとDeepSeek v3のパフォーマンスを高めるために、レビュー検索、コンテキスト拡張、システマティックガイダンスを統合している。
- 参考スコア(独自算出の注目度): 17.54065758880181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code review is critical for ensuring software quality and maintainability. With the rapid growth in software scale and complexity, code review has become a bottleneck in the development process because of its time-consuming and knowledge-intensive nature and the shortage of experienced developers willing to review code. Several approaches have been proposed for automatically generating code reviews based on retrieval, neural machine translation, pre-trained models, or large language models (LLMs). These approaches mainly leverage historical code changes and review comments. However, a large amount of crucial information for code review, such as the context of code changes and prior review knowledge, has been overlooked. This paper proposes an LLM-based review knowledge-augmented, context-aware framework for code review generation, named LAURA. The framework integrates review exemplar retrieval, context augmentation, and systematic guidance to enhance the performance of ChatGPT-4o and DeepSeek v3 in generating code review comments. Besides, given the extensive low-quality reviews in existing datasets, we also constructed a high-quality dataset. Experimental results show that for both models, LAURA generates review comments that are either completely correct or at least helpful to developers in 42.2% and 40.4% of cases, respectively, significantly outperforming SOTA baselines. Furthermore, our ablation studies demonstrate that all components of LAURA contribute positively to improving comment quality.
- Abstract(参考訳): コードレビューは、ソフトウェアの品質と保守性を保証するために重要です。
ソフトウェア規模と複雑さの急速な増加に伴い、コードレビューは開発プロセスのボトルネックとなっている。
検索、ニューラルマシン翻訳、事前訓練されたモデル、あるいは大きな言語モデル(LLM)に基づいてコードレビューを自動的に生成するいくつかのアプローチが提案されている。
これらのアプローチは、主に歴史的コードの変更とレビューコメントを活用する。
しかし、コード変更のコンテキストや事前レビューの知識など、コードレビューにとって重要な情報が大量に見過ごされている。
本稿では,LAURA というコードレビュー生成のための LLM ベースの知識付加型コンテキスト認識フレームワークを提案する。
このフレームワークは、コードレビューコメントの生成におけるChatGPT-4oとDeepSeek v3のパフォーマンスを高めるために、レビュー前例検索、コンテキスト拡張、システマティックガイダンスを統合している。
さらに、既存のデータセットの広範な低品質レビューを考慮して、高品質なデータセットを構築しました。
実験の結果、両方のモデルにおいて、LAURAは、それぞれ42.2%と40.4%のケースにおいて、完全に正しいか、少なくとも開発者にとって有用であるレビューコメントを生成し、SOTAベースラインを著しく上回った。
さらに, LAURAのすべての成分がコメント品質向上に有効であることを示す。
関連論文リスト
- Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。
ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。
本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文 参考訳(メタデータ) (2025-06-04T21:31:38Z) - VERINA: Benchmarking Verifiable Code Generation [46.582574591358735]
大規模言語モデル(LLM)は、ソフトウェア開発にますます統合されている。
LLM生成コードの正確性を保証することは依然として困難である。
検証可能なコード生成は、この制限に対処するための有望なパスを提供する。
論文 参考訳(メタデータ) (2025-05-29T06:12:52Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Leveraging Reviewer Experience in Code Review Comment Generation [11.224317228559038]
私たちは、自然言語のコードレビューを提供する際に、人間のレビュアーを模倣するためにディープラーニングモデルを訓練します。
生成したレビューの品質は、モデルトレーニングで使用されるオープンソースのコードレビューデータの品質のため、まだ最適化されていない。
本稿では,レビュー品質の指標として,過去のレビュアのオーサリングとレビューを活かした経験学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T07:52:50Z) - Automating Patch Set Generation from Code Review Comments Using Large Language Models [2.045040820541428]
5つの人気のあるLarge Language Model(LLM)にコードコンテキストを提供します。
実世界のコードレビューコメントから提案したコード変更(パッチセット)を得る。
生成したパッチセットを人為的なパッチセットの履歴データと比較することにより、各モデルの性能を慎重に評価する。
論文 参考訳(メタデータ) (2024-04-10T02:46:08Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。