論文の概要: SARL: Label-Free Reinforcement Learning by Rewarding Reasoning Topology
- arxiv url: http://arxiv.org/abs/2603.27977v1
- Date: Mon, 30 Mar 2026 02:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.20264
- Title: SARL: Label-Free Reinforcement Learning by Rewarding Reasoning Topology
- Title(参考訳): SARL:Rewarding Reasoning Topologyによるラベルなし強化学習
- Authors: Yifan Wang, Bolian Li, David Cho, Ruqi Zhang, Fanping Sui, Ananth Grama,
- Abstract要約: 中間的思考段階から応答ごとの推論マップを構築するラベルフリーフレームワークである構造認識強化学習(SARL)を導入する。
Qwen3-4B実験の結果,SARLは地上の真理に基づくRLと先行のラベルのないRLベースラインを超越していることがわかった。
- 参考スコア(独自算出の注目度): 29.219491041433375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become central to improving large reasoning models, but its success still relies heavily on verifiable rewards or labeled supervision. This limits its applicability to open ended domains where correctness is ambiguous and cannot be verified. Moreover, reasoning trajectories remain largely unconstrained, and optimization towards final answer can favor early exploitation over generalization. In this work, we ask whether general reasoning ability can be improved by teaching models how to think (the structure of reasoning) rather than what to produce (the outcome of reasoning) and extend traditional RLVR to open ended settings. We introduce structure aware reinforcement learning (SARL), a label free framework that constructs a per response Reasoning Map from intermediate thinking steps and rewards its small world topology, inspired by complex networks and the functional organization of the human brain. SARL encourages reasoning trajectories that are both locally coherent and globally efficient, shifting supervision from destination to path. Our experiments on Qwen3-4B show SARL surpasses ground truth based RL and prior label free RL baselines, achieving the best average gain of 9.1% under PPO and 11.6% under GRPO on math tasks and 34.6% under PPO and 30.4% under GRPO on open ended tasks. Beyond good performance, SARL also exhibits lower KL divergence, higher policy entropy, indicating a more stable and exploratory training and generalized reasoning ability.
- Abstract(参考訳): 強化学習は大きな推論モデルの改善の中心となっているが、その成功は依然として検証可能な報酬や、ラベル付き監視に大きく依存している。
これにより、正しさが曖昧で検証できないような開終域への適用が制限される。
さらに、推論軌跡はほとんど制約がなく、最終解への最適化は一般化よりも早期に活用できる。
本研究では、モデルに何を生み出すか(推論の結果)ではなく、どのように考えるか(推論の構造)を教えることによって、一般的な推論能力を改善することができるのかを問うとともに、従来のRLVRをオープンエンド設定に拡張する。
SARL(Structure aware reinforcement Learning)は、複雑なネットワークと人間の脳の機能的構造にインスパイアされた、中間的な思考段階から応答ごとの推論マップを構築し、その小さな世界トポロジに報いるラベルフリーフレームワークである。
SARLは、局所的に一貫性があり、グローバルに効率的である推論軌道を奨励し、監督を目的地から目的地へとシフトさせる。
我々のQwen3-4B実験では、SARLは地上の真理に基づくRLと先行のラベルのないRLベースラインを上回り、PPOが9.1%、GRPOが11.6%、PPOが34.6%、GRPOが30.4%となる。
優れた性能に加えて、SARLはより低いKL分岐、より高いポリシーエントロピーを示し、より安定で探索的な訓練と一般化された推論能力を示す。
関連論文リスト
- Reward and Guidance through Rubrics: Promoting Exploration to Improve Multi-Domain Reasoning [79.365697698062]
マルチドメイン推論のためのフレームワークである $textbfRGR-GRPO (Reward and Guidance through rubrics) を提案する。
RGR-GRPOは、代替の報酬スキームやオフラインガイダンスにのみ依存するRLメソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-11-15T20:14:51Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。