論文の概要: Fine-Tuning LLMs to Analyze Multiple Dimensions of Code Review: A Maximum Entropy Regulated Long Chain-of-Thought Approach
- arxiv url: http://arxiv.org/abs/2509.21170v1
- Date: Thu, 25 Sep 2025 13:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.95139
- Title: Fine-Tuning LLMs to Analyze Multiple Dimensions of Code Review: A Maximum Entropy Regulated Long Chain-of-Thought Approach
- Title(参考訳): コードレビューの複数次元解析のための微調整LDM:最大エントロピー制御長鎖法
- Authors: Yongda Yu, Guohao Shi, Xianwei Wu, Haochuan He, XueMing Gu, Qianqian Zhao, Kui Liu, Qiushi Wang, Zhao Tian, Haifeng Shen, Guoping Rong,
- Abstract要約: 大きな言語モデル(LLM)は、自動コードレビューをサポートする大きな可能性を示しています。
近年,コードレビューデータを用いた微調整LDMによる性能向上が報告されている。
本稿では,複数次元のコードレビューを解析する優れた推論能力を備えたLCMを訓練する,COTファインチューニングアプローチであるMelcotCRを提案する。
- 参考スコア(独自算出の注目度): 8.438786414509178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown great potential in supporting automated code review due to their impressive capabilities in context understanding and reasoning. However, these capabilities are still limited compared to human-level cognition because they are heavily influenced by the training data. Recent research has demonstrated significantly improved performance through fine-tuning LLMs with code review data. However, compared to human reviewers who often simultaneously analyze multiple dimensions of code review to better identify issues, the full potential of these methods is hampered by the limited or vague information used to fine-tune the models. This paper contributes MelcotCR, a chain-of-thought (COT) fine-tuning approach that trains LLMs with an impressive reasoning ability to analyze multiple dimensions of code review by harnessing long COT techniques to provide rich structured information. To address context loss and reasoning logic loss issues that frequently occur when LLMs process long COT prompts, we propose a solution that combines the Maximum Entropy (ME) modeling principle with pre-defined reasoning pathways in MelcotCR to enable more effective utilization of in-context knowledge within long COT prompts while strengthening the logical tightness of the reasoning process. Empirical evaluations on our curated MelcotCR dataset and the public CodeReviewer dataset reveal that a low-parameter base model, such as 14B Qwen2.5, fine-tuned with MelcotCR can surpass state-of-the-art methods in terms of the accuracy of detecting and describing code issues, with its performance remarkably on par with that of the 671B DeepSeek-R1 model.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈理解と推論における印象的な能力のために、自動コードレビューをサポートする大きな可能性を示しています。
しかし、これらの能力はトレーニングデータに強く影響されているため、人間レベルの認知と比較しても制限されている。
近年,コードレビューデータを用いた微調整LDMによる性能向上が報告されている。
しかしながら、コードレビューの複数の次元を同時に分析して問題をよりよく特定する人間レビュアーと比較して、これらの手法の潜在能力は、モデルを微調整するために使用される限定的または曖昧な情報によって妨げられる。
本稿では,長いCOT技術を用いて多次元のコードレビューを解析し,リッチな構造化情報を提供するLLMを訓練する,COTファインチューニング手法であるMelcotCRを提案する。
LLMが長いCOTプロンプトを処理したときに頻繁に発生するコンテキスト損失と推論論理損失の問題に対処するため、LLMの最大エントロピー(ME)モデリング原理とメルコトCRの事前定義された推論経路を組み合わせ、長いCOTプロンプト内でのコンテキスト内知識のより効果的な活用を可能にするソリューションを提案し、推論プロセスの論理的厳密性を強化した。
私たちのキュレートしたMelcotCRデータセットと公開のCodeReviewerデータセットに関する実証的な評価によると、14B Qwen2.5のような、MelcotCRで微調整された低パラメータのベースモデルは、コード問題の検出と記述の正確さにおいて最先端のメソッドを超えることができ、パフォーマンスは671BのDeepSeek-R1モデルと著しく同等である。
関連論文リスト
- DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding [66.07724324530844]
動的推論時間推論のためのルールベースの強化学習フレームワークであるDocThinkerを提案する。
本手法は破滅的な忘れ込みを軽減し,適応性と透明性を両立させる。
本研究は,MLLMに基づく文書理解における説明可能性と適応性を高めるための強力な代替手段として,RLに注目した。
論文 参考訳(メタデータ) (2025-08-12T03:06:55Z) - CODE-DITING: A Reasoning-Based Metric for Functional Alignment in Code Evaluation [22.06897150825726]
本稿では,精度,効率,説明性を両立させるコード評価手法であるCODE-DIINGを提案する。
我々は,DeepSeek-R1671BからCODE-DIING 1.5Bおよび7Bモデルへの推論能力を効果的に伝達するデータ蒸留フレームワークを開発した。
推論プロセスにおける過半数の投票戦略により、CODE-DIING 1.5Bは、同じパラメータで全てのモデルを上回ります。
論文 参考訳(メタデータ) (2025-05-26T04:29:14Z) - QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T09:31:55Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LLaMA-Reviewer: Advancing Code Review Automation with Large Language
Models through Parameter-Efficient Fine-Tuning [13.616908697637665]
LLaMA-Reviewerは、コードレビューの領域において、人気のあるLLMであるLLaMAの機能を活用する革新的なフレームワークである。
このフレームワークはパラメータ効率のよい微調整(PEFT)方式を採用し、トレーニング可能なパラメータの1%未満を使用しながら高い性能を実現する。
この分野での継続的な進歩を促進するために、コードとすべてのPEFT軽量プラグインがオープンソース化された。
論文 参考訳(メタデータ) (2023-08-22T03:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。