Fugu-MT 論文翻訳(概要): Distilling Desired Comments for Enhanced Code Review with Large Language Models

論文の概要: Distilling Desired Comments for Enhanced Code Review with Large Language Models

arxiv url: http://arxiv.org/abs/2412.20340v1
Date: Sun, 29 Dec 2024 03:49:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.569809
Title: Distilling Desired Comments for Enhanced Code Review with Large Language Models
Title（参考訳）: 大規模言語モデルによるコードレビュー強化のための詳細コメントの蒸留
Authors: Yongda Yu, Lei Zhang, Guoping Rong, Haifeng Shen, Jiahao Zhang, Haoxiang Yan, Guohao Shi, Dong Shao, Ruiqi Pan, Yuan Li, Qiushi Wang, Zhao Tian,
Abstract要約: 本稿では,コードレビューデータセットからDRCを識別することで,蒸留データセットを自動構築するデータセット蒸留手法Desiviewを提案する。 150K以上のレビューエントリからなるCodeReviewerデータセットの実験では、Desiviewは88.93%、80.37%、86.67%、84.44%の精度、リコール、正確性、F1という印象的なパフォーマンスを達成した。
参考スコア（独自算出の注目度）: 14.11089517380712
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been a growing interest in using Large Language Models (LLMs) for code review thanks to their proven proficiency in code comprehension. The primary objective of most review scenarios is to generate desired review comments (DRCs) that explicitly identify issues to trigger code fixes. However, existing LLM-based solutions are not so effective in generating DRCs for various reasons such as hallucination. To enhance their code review ability, they need to be fine-tuned with a customized dataset that is ideally full of DRCs. Nevertheless, such a dataset is not yet available, while manual annotation of DRCs is too laborious to be practical. In this paper, we propose a dataset distillation method, Desiview, which can automatically construct a distilled dataset by identifying DRCs from a code review dataset. Experiments on the CodeReviewer dataset comprising more than 150K review entries show that Desiview achieves an impressive performance of 88.93%, 80.37%, 86.67%, and 84.44% in terms of Precision, Recall, Accuracy, and F1, respectively, surpassing state-of-the-art methods. To validate the effect of such a distilled dataset on enhancing LLMs' code review ability, we first fine-tune the latest LLaMA series (i.e., LLaMA 3 and LLaMA 3.1) to build model Desiview4FT. We then enhance the model training effect through KTO alignment by feeding those review comments identified as non-DRCs to the LLMs, resulting in model Desiview4FA. Verification results indicate that Desiview4FA slightly outperforms Desiview4FT, while both models have significantly improved against the base models in terms of generating DRCs. Human evaluation confirms that both models identify issues more accurately and tend to generate review comments that better describe the issues contained in the code than the base LLMs do.
Abstract（参考訳）: コード理解の熟練が証明されたおかげで、コードレビューにLLM(Large Language Models)を使うことへの関心が高まっている。ほとんどのレビューシナリオの主な目的は、コード修正をトリガーする問題を明確に識別する、望ましいレビューコメント(DRC)を生成することである。しかし、既存のLCMベースのソリューションは幻覚などの様々な理由でDRCを生成するのにあまり効果がない。コードレビュー能力を向上するためには、理想的にはDRCで満たされたカスタマイズされたデータセットで微調整する必要がある。しかしながら、そのようなデータセットはまだ利用できないが、DRCのマニュアルアノテーションは実用的すぎる。本稿では,コードレビューデータセットからDRCを識別することにより,蒸留データセットを自動構築するデータセット蒸留手法であるDesiviewを提案する。 150K以上のレビューエントリからなるCodeReviewerデータセットの実験では、Desiviewは、それぞれ精度、リコール、精度、F1の点で88.93%、80.37%、86.67%、84.44%という印象的なパフォーマンスを達成した。このような蒸留データセットがLLMのコードレビュー能力の向上に与える影響を検証するため、まず最新のLLaMAシリーズ(LLaMA 3とLLaMA 3.1)を微調整し、モデルDesiview4FTを構築した。そこで本研究では,非DRCとして認識されるレビューコメントをLCMに送付することにより,KTOアライメントによるモデルトレーニング効果を高め,デシビュー4FAをモデルとした。検証の結果,Desiview4FAはDesiview4FTをわずかに上回り,両モデルともDRCの生成においてベースモデルに対して大幅に改善されていることがわかった。人間の評価は、どちらのモデルも問題をより正確に識別し、レビューコメントを生成する傾向があることを確認している。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。 1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文参考訳（メタデータ） (2025-06-09T10:57:26Z)
DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文参考訳（メタデータ） (2025-05-01T17:03:17Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Harnessing Large Language Models for Curated Code Reviews [2.5944208050492183]
コードレビューでは、構造化され、関連するコメントを生成することは、コードの問題を識別し、正確なコード変更を容易にするために不可欠である。既存のコードレビューデータセットは、しばしば騒々しく、未解決であり、AIモデルの学習可能性に制限を課している。本稿では,最大規模の公開コードレビューデータセットの品質向上を目的としたキュレーションパイプラインを提案する。
論文参考訳（メタデータ） (2025-02-05T18:15:09Z)
Too Noisy To Learn: Enhancing Data Quality for Code Review Comment Generation [2.990411348977783]
オープンソースのデータセットは、自動コードレビュータスクのためのニューラルネットワークのトレーニングに使用される。これらのデータセットには、クリーニングメソッドにもかかわらず持続する大量のノイズの多いコメントが含まれている。大規模言語モデル(LLM)を用いて,これらのデータセットをさらにクリーン化する手法を提案する。
論文参考訳（メタデータ） (2025-02-04T22:48:58Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文参考訳（メタデータ） (2024-11-15T12:01:38Z)
Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文参考訳（メタデータ） (2024-07-02T16:15:01Z)
A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking [79.35822270532948]
大規模言語モデル (LLM) から蒸留したクロスエンコーダは、手動でラベル付けされたデータに微調整されたクロスエンコーダよりも効果的であることが多い。我々は新しい蒸留データセットである Rank-DistiLLM を構築し,リリースする。
論文参考訳（メタデータ） (2024-05-13T16:51:53Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-02-20T14:23:23Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Towards Automated Classification of Code Review Feedback to Support Analytics [4.423428708304586]
本研究の目的は,自動コードレビューコメント分類システムを開発することである。コードコンテキスト、コメントテキスト、コードメトリクスのセットを活用した教師付き学習ベースのDNNモデルを訓練し、評価した。提案手法はFregnanらのアプローチよりも18.7%高い精度を実現している。
論文参考訳（メタデータ） (2023-07-07T21:53:20Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
Coreference Reasoning in Machine Reading Comprehension [100.75624364257429]
機械読解におけるコレファレンス推論は,従来考えられていたよりも大きな課題である。本稿では,コア参照推論の課題を反映した理解データセットの読解手法を提案する。これにより、さまざまなMRCデータセットにまたがる最先端のモデルの推論能力が向上します。
論文参考訳（メタデータ） (2020-12-31T12:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。