論文の概要: Reasoning with Exploration: An Entropy Perspective
- arxiv url: http://arxiv.org/abs/2506.14758v1
- Date: Tue, 17 Jun 2025 17:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.600293
- Title: Reasoning with Exploration: An Entropy Perspective
- Title(参考訳): Reasoning with Exploration: an Entropy Perspective
- Authors: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei,
- Abstract要約: 強化学習(RL)の中心的目標としてのバランシング探索と活用
本研究では、RLにおける探査信号であるエントロピーを再検討し、LMにおける探索的推論との関係について検討する。
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
- 参考スコア(独自算出の注目度): 112.40801692473723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy -- a signal of exploration in RL -- and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric -- an upper-bound estimator of LM reasoning capabilities -- even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.
- Abstract(参考訳): 探究と搾取のバランスをとることは、強化学習(RL)における中心的な目標である。
近年の言語モデル(LM)推論の進歩にもかかわらず、ほとんどのメソッドは搾取に傾き、パフォーマンスプラトーに遭遇する傾向にある。
本研究では、RLにおける探査信号であるエントロピーを再検討し、LMにおける探索的推論との関係について検討する。
実験により,高エントロピー領域と3種類の探索的推論行動との間に強い正の相関関係が発見された。(1) 論理的ステップを決定・接続する中心トークン,(2) 自己検証や修正などの反射的行動,(3) 基本LMが探索する稀な行動である。
これにより,1行のコードしか持たない標準RLに最小限の修正を導入する。
不確実性を促進することによって探索を促進する従来の最大エントロピー法とは異なり、我々はより長く深い推論連鎖を促進することによって探索を促進する。
特に,極めて大きなK値で評価した場合においても,LM推論能力の上限値であるPass@K測定値に有意な利得が得られ,LM推論のバウンダリが押し上げられる。
関連論文リスト
- Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。
我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文 参考訳(メタデータ) (2025-05-26T22:51:00Z) - Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration [33.807927649100805]
大規模言語モデル(LLM)の推論能力向上のための重要な手法として強化学習(RL)が登場した。
RLアプローチは、スパース結果に基づく報酬への依存と、探索のインセンティブを高めるための不十分なメカニズムにより、重要な制限に直面している。
固有モチベーション guidEd ExploratioN meThOd foR LLM Reasoning (i-MENTOR) を提案する。
i-MENTORは、トークンレベルの戦略におけるバイアスを軽減する軌道対応探索報酬、大きなアクション空間における探索と利用を安定化するための動的報酬スケーリング、そして、維持する有利な報酬実装の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-23T08:30:28Z) - DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management [18.953750405635393]
Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。
我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
論文 参考訳(メタデータ) (2025-05-19T10:44:49Z) - Entropy-based Exploration Conduction for Multi-step Reasoning [15.589134593402589]
大規模言語モデル(LLM)の推論では、多段階プロセスは複雑なタスクを解くのに効果的であることが証明されている。
奥行きを自動的に判断する既存の手法は、しばしば高いコストと柔軟性の欠如をもたらす。
本研究では,探査深度を動的に調整するエントロピーに基づく探査深度伝導法(エントロダクション)を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:03:26Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。