Fugu-MT 論文翻訳(概要): Boosting Open-Source LLMs for Program Repair via Reasoning Transfer and LLM-Guided Reinforcement Learning

論文の概要: Boosting Open-Source LLMs for Program Repair via Reasoning Transfer and LLM-Guided Reinforcement Learning

arxiv url: http://arxiv.org/abs/2506.03921v1
Date: Wed, 04 Jun 2025 13:13:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.343467
Title: Boosting Open-Source LLMs for Program Repair via Reasoning Transfer and LLM-Guided Reinforcement Learning
Title（参考訳）: 推論伝達とLLM誘導強化学習によるプログラム修復のためのオープンソースLLMの強化
Authors: Xunzhu Tang, Jacques Klein, Tegawendé F. Bissyandé,
Abstract要約: いくつかのクローズドソース LLM は、プログラム修復タスクにおいて、一貫してオープンソースの代替品より優れている。本稿では,この性能ギャップを著しく狭める新しい3段階の手法である修復性を紹介する。
参考スコア（独自算出の注目度）: 7.850001507980097
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Several closed-source LLMs have consistently outperformed open-source alternatives in program repair tasks, primarily due to their superior reasoning capabilities and extensive pre-training. This paper introduces Repairity, a novel three-stage methodology that significantly narrows this performance gap through reasoning extraction and reinforcement learning. Our approach: (1) systematically filters high-quality reasoning traces from closed-source models using correctness verification, (2) transfers this reasoning knowledge to open-source models via supervised fine-tuning, and (3) develops reinforcement learning with LLM-based feedback to further optimize performance. Empirical evaluation across multiple program repair benchmarks demonstrates that Repairity improves the performance of Qwen2.5-Coder-32B-Instruct, a base open source LLM, by 8.68\% on average, reducing the capability gap with Claude-Sonnet3.7, a state-of-the-art closed-source model, from 10.05% to 1.35%. Ablation studies confirm that both reasoning extraction and LLM-guided reinforcement learning contribute significantly to these improvements. Our methodology generalizes effectively to additional code-related tasks, enabling organizations to leverage high-quality program repair capabilities while maintaining the customizability, transparency, and deployment flexibility inherent to open-source models.
Abstract（参考訳）: いくつかのクローズドソース LLM は、その優れた推論能力と広範な事前学習のために、プログラム修復タスクにおけるオープンソースの代替品を一貫して上回っている。本稿では, 推論抽出と強化学習により, この性能ギャップを著しく狭める新しい3段階手法である修復性を紹介する。提案手法では,(1)正当性検証を用いてクローズドソースモデルからの高品質な推論トレースを体系的にフィルタリングし,(2)教師付き微調整により,この推論知識をオープンソースモデルに転送し,(3)LLMに基づくフィードバックによる強化学習を開発し,さらなる性能向上を図る。複数のプログラム修復ベンチマークによる実証的な評価によると、修復性は、ベースとなるオープンソースLLMであるQwen2.5-Coder-32B-Instructのパフォーマンスを平均8.68\%向上させ、最先端のクローズドソースモデルであるClaude-Sonnet3.7の能力ギャップを10.05%から1.35%に削減した。アブレーション研究は、推論抽出とLLM誘導強化学習の両方がこれらの改善に大きく寄与していることを確認した。当社の方法論は,オープンソースモデル固有のカスタマイズ性,透明性,デプロイメントの柔軟性を維持しつつ,高品質なプログラム修復機能を活用可能な,コード関連タスクを効果的に一般化する。

関連論文リスト

Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。 4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
ReasonBridge: Efficient Reasoning Transfer from Closed to Open-Source Language Models [1.125423117145132]
本稿では、強力なクローズドソースからオープンソースモデルへの推論能力を効率的に伝達する手法であるReasonBridgeを紹介する。我々は、難易度、多様性、品質を重視した、1,000の慎重にキュレートされた推論トレースしか持たない、カスタマイズされたデータセットReason1Kを開発した。総合的な評価によると、ReasonBridgeはベンチマークタスクにおいて、オープンソースモデルの推論能力を最大23%改善する。
論文参考訳（メタデータ） (2025-06-28T12:22:55Z)
Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Generative Reliability-Based Design Optimization Using In-Context Learning Capabilities of Large Language Models [0.8356765961526956]
LLM(Large Language Models)は、コンテキスト内学習機能を示す。本稿では,LLMの文脈内学習機能を活用した生成設計手法を提案する。
論文参考訳（メタデータ） (2025-03-28T13:10:04Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。 RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。 RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文参考訳（メタデータ） (2025-01-31T17:19:57Z)
7B Fully Open Source Moxin-LLM -- From Pretraining to GRPO-based Reinforcement Learning Enhancement [42.10844666788254]
Moxin 7Bは、オープンサイエンス、オープンソース、オープンデータ、オープンアクセスの原則に準拠した、完全にオープンソースのLarge Language Models (LLM) である。トレーニング済みのコードと設定、トレーニングと微調整のデータセット、中間および最終チェックポイントをリリースします。実験により, ゼロショット評価, 少数ショット評価, CoT評価など, 各種評価において, 優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-08T02:01:46Z)
LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文参考訳（メタデータ） (2024-10-31T00:18:05Z)
EntGPT: Entity Linking with Generative Large Language Models [8.557683104631883]
ELタスクの強化に先進的なプロンプトエンジニアリングを採用したEntGPTを導入する。この3段階のハードプロンプト法(EntGPT-P)は,バニラプロンプトよりもマイクロF_1スコアを最大36%向上させる。命令チューニング手法EntGPT-I(EntGPT-I)は,教師付きELタスクの平均2.1%のマイクロF_1スコアを改善する。
論文参考訳（メタデータ） (2024-02-09T19:16:27Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。