論文の概要: OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration
- arxiv url: http://arxiv.org/abs/2602.08344v1
- Date: Mon, 09 Feb 2026 07:29:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.106273
- Title: OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration
- Title(参考訳): OPE:アウトラインガイドによる並列思考における情報飽和の克服
- Authors: Qi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang, Yi Lu, Jingang Wang, Wei Wang, Shikun Zhang, Wei Ye,
- Abstract要約: 本稿では,RLVR(Reinforcement Learning with Verifiable Rewards)設定下での並列思考の最適化について分析する。
本稿では,多様な推論アウトラインを生成することにより,解空間を明示的に分割するOutline-Guided Path Exploration (OPE)を提案する。
OPEは、異なる集約戦略における推論性能を効果的に改善し、LEMがより確実に正しい解を発見できるようにする。
- 参考スコア(独自算出の注目度): 44.75197582672493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel thinking has emerged as a new paradigm for large reasoning models (LRMs) in tackling complex problems. Recent methods leverage Reinforcement Learning (RL) to enhance parallel thinking, aiming to address the limitations in computational resources and effectiveness encountered with supervised fine-tuning. However, most existing studies primarily focus on optimizing the aggregation phase, with limited attention to the path exploration stage. In this paper, we theoretically analyze the optimization of parallel thinking under the Reinforcement Learning with Verifiable Rewards (RLVR) setting, and identify that the mutual information bottleneck among exploration paths fundamentally restricts overall performance. To address this, we propose Outline-Guided Path Exploration (OPE), which explicitly partitions the solution space by generating diverse reasoning outlines prior to parallel path reasoning, thereby reducing information redundancy and improving the diversity of information captured across exploration paths. We implement OPE with an iterative RL strategy that optimizes outline planning and outline-guided reasoning independently. Extensive experiments across multiple challenging mathematical benchmarks demonstrate that OPE effectively improves reasoning performance in different aggregation strategies, enabling LRMs to more reliably discover correct solutions.
- Abstract(参考訳): 並列思考は、複雑な問題に対処する大規模推論モデル(LRM)の新しいパラダイムとして登場した。
近年の手法では,Reinforcement Learning (RL) を用いて並列思考を強化し,計算資源の限界と教師付き微調整で遭遇する有効性に対処する。
しかし、既存の研究のほとんどは、経路探索段階に限定して、集約フェーズの最適化に重点を置いている。
本稿では,Reinforcement Learning with Verifiable Rewards (RLVR) 設定下での並列思考の最適化を理論的に分析し,探索経路間の相互情報のボトルネックが全体的な性能を根本的に制限することを確認する。
そこで我々は,並列経路推論に先立って,多様な推論アウトラインを生成し,情報冗長性を低減し,探索経路をまたいだ情報の多様性を向上させることにより,解空間を明示的に分割するOutline-Guided Path Exploration (OPE)を提案する。
我々は、アウトライン計画とアウトライン誘導推論を独立して最適化する反復的RL戦略でOPEを実装した。
複数の挑戦的な数学的ベンチマークによる大規模な実験により、OPEは異なる集約戦略における推論性能を効果的に改善し、LEMがより確実に正しい解を発見できることが示されている。
関連論文リスト
- RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [14.058764537783086]
LOPE: textbfLearning textbfOnline with trajectory textbfPreferencedanctextbfE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能の点で、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。