論文の概要: Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
- arxiv url: http://arxiv.org/abs/2510.25992v1
- Date: Wed, 29 Oct 2025 22:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.585668
- Title: Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
- Title(参考訳): 強化学習の監督:専門家の軌道からステップワイド推論へ
- Authors: Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee,
- Abstract要約: 大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
- 参考スコア(独自算出の注目度): 49.22815446849924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often struggle with problems that require multi-step reasoning. For small-scale open-source models, Reinforcement Learning with Verifiable Rewards (RLVR) fails when correct solutions are rarely sampled even after many attempts, while Supervised Fine-Tuning (SFT) tends to overfit long demonstrations through rigid token-by-token imitation. To address this gap, we propose Supervised Reinforcement Learning (SRL), a framework that reformulates problem solving as generating a sequence of logical "actions". SRL trains the model to generate an internal reasoning monologue before committing to each action. It provides smoother rewards based on the similarity between the model's actions and expert actions extracted from the SFT dataset in a step-wise manner. This supervision offers richer learning signals even when all rollouts are incorrect, while encouraging flexible reasoning guided by expert demonstrations. As a result, SRL enables small models to learn challenging problems previously unlearnable by SFT or RLVR. Moreover, initializing training with SRL before refining with RLVR yields the strongest overall performance. Beyond reasoning benchmarks, SRL generalizes effectively to agentic software engineering tasks, establishing it as a robust and versatile training framework for reasoning-oriented LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、Reinforcement Learning with Verifiable Rewards (RLVR) は、多くの試みの後に正しいソリューションがサンプリングされることが滅多にない場合に失敗するが、Supervised Fine-Tuning (SFT) は厳密なトークン・バイ・トークンの模倣を通じて長いデモをオーバーフィットする傾向にある。
このギャップに対処するため、我々は、論理的「アクション」のシーケンスを生成するものとして問題解決を再構築するフレームワークである、スーパービジョン強化学習(SRL)を提案する。
SRLはモデルをトレーニングし、各アクションにコミットする前に内部の推論モノローグを生成する。
ステップワイズでSFTデータセットから抽出されたモデルアクションと専門家アクションの類似性に基づいて、よりスムーズな報酬を提供する。
この監視は、すべてのロールアウトが正しくない場合でも、より豊かな学習信号を提供すると同時に、専門家によるデモンストレーションによって導かれる柔軟な推論を促進する。
その結果、SRL は SFT や RLVR による学習不可能な課題を、小さなモデルで学習することができる。
さらに、RLVRで精錬する前にSRLでトレーニングを初期化することで、全体的なパフォーマンスが最強となる。
推論ベンチマーク以外にも、SRLはエージェントソフトウェアエンジニアリングタスクを効果的に一般化し、推論指向のLLMのための堅牢で汎用的なトレーニングフレームワークとして確立している。
関連論文リスト
- RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [17.407689582427437]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
まばらな報酬のある環境では、強化学習は軌道のサンプリングに苦労する。
我々は、RLとSFTを代替する統合トレーニングフレームワークであるSuperRLを紹介する。
実験により、スーパーRLは、サンプル効率の向上、一般化の強化、スパース報酬下での堅牢性の向上により、バニラRLを超えることが示された。
論文 参考訳(メタデータ) (2025-06-01T17:43:54Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。