論文の概要: Distilling Desired Comments for Enhanced Code Review with Large Language Models
- arxiv url: http://arxiv.org/abs/2412.20340v1
- Date: Sun, 29 Dec 2024 03:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:40.635850
- Title: Distilling Desired Comments for Enhanced Code Review with Large Language Models
- Title(参考訳): 大規模言語モデルによるコードレビュー強化のための詳細コメントの蒸留
- Authors: Yongda Yu, Lei Zhang, Guoping Rong, Haifeng Shen, Jiahao Zhang, Haoxiang Yan, Guohao Shi, Dong Shao, Ruiqi Pan, Yuan Li, Qiushi Wang, Zhao Tian,
- Abstract要約: 本稿では,コードレビューデータセットからDRCを識別することで,蒸留データセットを自動構築するデータセット蒸留手法Desiviewを提案する。
150K以上のレビューエントリからなるCodeReviewerデータセットの実験では、Desiviewは88.93%、80.37%、86.67%、84.44%の精度、リコール、正確性、F1という印象的なパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 14.11089517380712
- License:
- Abstract: There has been a growing interest in using Large Language Models (LLMs) for code review thanks to their proven proficiency in code comprehension. The primary objective of most review scenarios is to generate desired review comments (DRCs) that explicitly identify issues to trigger code fixes. However, existing LLM-based solutions are not so effective in generating DRCs for various reasons such as hallucination. To enhance their code review ability, they need to be fine-tuned with a customized dataset that is ideally full of DRCs. Nevertheless, such a dataset is not yet available, while manual annotation of DRCs is too laborious to be practical. In this paper, we propose a dataset distillation method, Desiview, which can automatically construct a distilled dataset by identifying DRCs from a code review dataset. Experiments on the CodeReviewer dataset comprising more than 150K review entries show that Desiview achieves an impressive performance of 88.93%, 80.37%, 86.67%, and 84.44% in terms of Precision, Recall, Accuracy, and F1, respectively, surpassing state-of-the-art methods. To validate the effect of such a distilled dataset on enhancing LLMs' code review ability, we first fine-tune the latest LLaMA series (i.e., LLaMA 3 and LLaMA 3.1) to build model Desiview4FT. We then enhance the model training effect through KTO alignment by feeding those review comments identified as non-DRCs to the LLMs, resulting in model Desiview4FA. Verification results indicate that Desiview4FA slightly outperforms Desiview4FT, while both models have significantly improved against the base models in terms of generating DRCs. Human evaluation confirms that both models identify issues more accurately and tend to generate review comments that better describe the issues contained in the code than the base LLMs do.
- Abstract(参考訳): コード理解の熟練が証明されたおかげで、コードレビューにLLM(Large Language Models)を使うことへの関心が高まっている。
ほとんどのレビューシナリオの主な目的は、コード修正をトリガーする問題を明確に識別する、望ましいレビューコメント(DRC)を生成することである。
しかし、既存のLCMベースのソリューションは幻覚などの様々な理由でDRCを生成するのにあまり効果がない。
コードレビュー能力を向上するためには、理想的にはDRCで満たされたカスタマイズされたデータセットで微調整する必要がある。
しかしながら、そのようなデータセットはまだ利用できないが、DRCのマニュアルアノテーションは実用的すぎる。
本稿では,コードレビューデータセットからDRCを識別することにより,蒸留データセットを自動構築するデータセット蒸留手法であるDesiviewを提案する。
150K以上のレビューエントリからなるCodeReviewerデータセットの実験では、Desiviewは、それぞれ精度、リコール、精度、F1の点で88.93%、80.37%、86.67%、84.44%という印象的なパフォーマンスを達成した。
このような蒸留データセットがLLMのコードレビュー能力の向上に与える影響を検証するため、まず最新のLLaMAシリーズ(LLaMA 3とLLaMA 3.1)を微調整し、モデルDesiview4FTを構築した。
そこで本研究では,非DRCとして認識されるレビューコメントをLCMに送付することにより,KTOアライメントによるモデルトレーニング効果を高め,デシビュー4FAをモデルとした。
検証の結果,Desiview4FAはDesiview4FTをわずかに上回り,両モデルともDRCの生成においてベースモデルに対して大幅に改善されていることがわかった。
人間の評価は、どちらのモデルも問題をより正確に識別し、レビューコメントを生成する傾向があることを確認している。
関連論文リスト
- Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。
我々は新しい蒸留データセットである Rank-DistiLLM を構築し,リリースする。
論文 参考訳(メタデータ) (2024-05-13T16:51:53Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - Towards Automated Classification of Code Review Feedback to Support
Analytics [4.423428708304586]
本研究の目的は,自動コードレビューコメント分類システムを開発することである。
コードコンテキスト、コメントテキスト、コードメトリクスのセットを活用した教師付き学習ベースのDNNモデルを訓練し、評価した。
提案手法はFregnanらのアプローチよりも18.7%高い精度を実現している。
論文 参考訳(メタデータ) (2023-07-07T21:53:20Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Coreference Reasoning in Machine Reading Comprehension [100.75624364257429]
機械読解におけるコレファレンス推論は,従来考えられていたよりも大きな課題である。
本稿では,コア参照推論の課題を反映した理解データセットの読解手法を提案する。
これにより、さまざまなMRCデータセットにまたがる最先端のモデルの推論能力が向上します。
論文 参考訳(メタデータ) (2020-12-31T12:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。