Fugu-MT 論文翻訳(概要): SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

論文の概要: SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

arxiv url: http://arxiv.org/abs/2502.20127v1
Date: Thu, 27 Feb 2025 14:19:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:47.021923
Title: SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning
Title（参考訳）: SoRFT: サブタスク指向強化ファインチューニングによる問題解決
Authors: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie,
Abstract要約: Subtask-oriented Reinforced Fine-Tuning (SoRFT) は, LLMの問題解決能力を高めるための新しいトレーニング手法である。 SWE-Bench Verified と SWE-Bench Lite を用いたSORFT訓練モデルの評価を行い,オープンソースモデル間でのSOTA(State-of-the-art)性能を実現する。
参考スコア（独自算出の注目度）: 3.4023074295549014
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.
Abstract（参考訳）: メインストリームの問題解決フレームワークは、主に商用モデルに依存しており、高いコストとプライバシー上の懸念につながっている。既存のトレーニングアプローチは、問題解決の難しさと、オープンソース開発リソースの活用に失敗している。本稿では,LLMの問題解決能力を高めるための新しいトレーニング手法であるSubtask-oriented Reinforced Fine-Tuning (SoRFT)を提案する。ファイルのローカライゼーション、関数のローカライゼーション、行のローカライゼーション、コード編集生成などである。 SoRFT は,(1) 拒否サンプリングによる微調整, 思考の連鎖(CoT) データは, LLM の微調整の前に地中構造を用いてフィルタリングされる, (2) PPO と地中構造に基づく報酬を活用できるルールベース強化学習の2つの訓練段階から構成される。 SWE-Bench Verified と SWE-Bench Lite を用いたSORFT訓練モデルの評価を行い、オープンソースモデル間でのSOTA(State-of-the-art)性能を実現した(例:SWE-Bench Verified with SoRFT-Qwen-7B)。実験の結果,SoRFTは問題解決性能を著しく向上し,モデル一般化を向上し,商用モデルに代わるコスト効率の高い代替手段を提供することがわかった。

関連論文リスト

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。 RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文参考訳（メタデータ） (2025-07-31T23:55:29Z)
Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [23.99424961055015]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文参考訳（メタデータ） (2025-07-07T18:17:06Z)
Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文参考訳（メタデータ） (2025-07-02T13:04:09Z)
Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。 SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文参考訳（メタデータ） (2025-06-30T04:15:01Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-04-13T20:10:27Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。 DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文参考訳（メタデータ） (2024-12-17T03:10:47Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning [29.72531930169291]
SDFT (Self-Distillation Fine-Tuning) は, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法である。様々なベンチマークにおけるLlama-2-chatモデルの実験結果は、SDFTが破滅的な忘れを効果的に軽減することを示した。
論文参考訳（メタデータ） (2024-02-21T10:06:08Z)
Continual Contrastive Finetuning Improves Low-Resource Relation Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。近年の文献は自己教師型学習によって低リソースREに取り組みつつある。コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文参考訳（メタデータ） (2022-12-21T07:30:22Z)
Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-27T17:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。