論文の概要: Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following
- arxiv url: http://arxiv.org/abs/2508.02150v1
- Date: Mon, 04 Aug 2025 07:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.233517
- Title: Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following
- Title(参考訳): トレードオフを超えて: 自己監督型強化学習によるモデル推論の指導
- Authors: Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu,
- Abstract要約: 推論モデルは複雑な問題解決に優れるが、推論能力とそれに続く命令の間のトレードオフを示す。
本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.69688837528397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning models excel in complex problem solving but exhibit a concerning trade off between reasoning capabilities and instruction following abilities. Existing approaches for improving instruction following rely on stronger external models, creating methodological bottlenecks and practical limitations including increased costs and accessibility constraints. We propose a self-supervised RL framework that leverages reasoning models' own internal signals to improve instruction following capabilities without external supervision. Extensive experiments demonstrate that our framework significantly improves instruction following capabilities while maintaining reasoning performance, offering a scalable and cost-effective approach to enhance instruction following in reasoning models. The data and code are publicly available at https://github.com/Rainier-rq/verl-if.
- Abstract(参考訳): 推論モデルは複雑な問題解決に優れるが、推論能力と推論能力の間のトレードオフを示す。
命令の改善のための既存のアプローチは、より強力な外部モデルに依存し、コストの増大やアクセシビリティの制約を含む方法論的なボトルネックと実践的な制限を生み出している。
本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
大規模な実験により,我々のフレームワークは推論性能を維持しながら命令追従能力を大幅に改善し,推論モデルにおける命令追従性を高めるためのスケーラブルで費用対効果の高いアプローチを提供することを示した。
データとコードはhttps://github.com/Rainier-rq/verl-ifで公開されている。
関連論文リスト
- Libra: Assessing and Improving Reward Model by Learning to Think [37.22776255575947]
推論シナリオにおける既存の報酬モデルベンチマークの限界に対処するために、推論指向ベンチマーク(Libra Bench)を提案する。
本稿では,学習から思考までの手法を用いて,生成報酬モデルを改善する新しい手法を提案する。
我々は,様々なベンチマークで最新の結果が得られる推論機能を備えた生成的報酬モデルであるLibra-RMシリーズを開発した。
論文 参考訳(メタデータ) (2025-07-29T10:02:43Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Towards Effective Code-Integrated Reasoning [89.47213509714578]
モデルが必要に応じてコードを生成するコード統合推論について検討し、コードインタプリタを通じてそれを実行することによってフィードバックを統合する。
ツール強化強化学習は、学習力学における潜在的な不安定さに悩まされる可能性がある。
我々は、探索と安定性のバランスをとるための強化されたトレーニング戦略を開発し、推論性能を改善しながら、ツールの利用能力を徐々に構築する。
論文 参考訳(メタデータ) (2025-05-30T11:30:18Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities [45.989423626537985]
強化学習(Reinforcement Learning, RL)は, 推論モデルの学習に有効な手法である。
外部の高レベルガイダンス(「思考パターン」)を取り入れてRLを強化するフレームワークであるTAPOを提案する。
AIMEではGRPOが99%,AMCでは41%,Minerva Mathでは17%,それぞれ有意に向上した。
論文 参考訳(メタデータ) (2025-05-21T16:06:10Z) - Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。
我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。
簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文 参考訳(メタデータ) (2025-05-20T18:18:01Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。