論文の概要: Entropy-based Exploration Conduction for Multi-step Reasoning
- arxiv url: http://arxiv.org/abs/2503.15848v1
- Date: Thu, 20 Mar 2025 05:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:54.188942
- Title: Entropy-based Exploration Conduction for Multi-step Reasoning
- Title(参考訳): 多段推論のためのエントロピーに基づく探索伝導
- Authors: Jinghan Zhang, Xiting Wang, Fengran Mo, Yeyang Zhou, Wanfu Gao, Kunpeng Liu,
- Abstract要約: 大規模言語モデル(LLM)の推論では、多段階プロセスは複雑なタスクを解くのに効果的であることが証明されている。
奥行きを自動的に判断する既存の手法は、しばしば高いコストと柔軟性の欠如をもたらす。
本研究では,探査深度を動的に調整するエントロピーに基づく探査深度伝導法(エントロダクション)を提案する。
- 参考スコア(独自算出の注目度): 15.589134593402589
- License:
- Abstract: In large language model (LLM) reasoning, multi-step processes have proven effective for solving complex tasks. However, the depth of exploration can significantly affect the reasoning performance. Existing methods to automatically decide the depth often bring high costs and lack flexibility, and thus undermine the model's reasoning accuracy. To address these issues, we propose Entropy-based Exploration Depth Conduction (Entro-duction), a novel method that dynamically adjusts the exploration depth during multi-step reasoning by monitoring LLM's output entropy and variance entropy. We employ these two metrics to capture the model's current uncertainty and the fluctuation of uncertainty across consecutive reasoning steps. Based on the observed changes, the LLM selects whether to deepen, expand or stop exploration according to the probability. In this way, we balance the reasoning accuracy and exploration effectiveness. Experimental results across four benchmark datasets demonstrate the efficacy of Entro-duction. We further conduct experiments and analysis on the components of Entro-duction to discuss their contributions to reasoning performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論では、多段階プロセスは複雑なタスクを解くのに効果的であることが証明されている。
しかし、探索の深さは推論性能に大きく影響する可能性がある。
深度を自動的に決定する既存の手法は、しばしば高いコストをもたらし、柔軟性を欠いているため、モデルの推論精度を損なう。
これらの問題に対処するために,LLMの出力エントロピーと分散エントロピーを監視し,多段階推論における探索深度を動的に調整するエントロピーに基づく探索深度導電(エントロダクション)を提案する。
この2つの指標を用いて、連続的な推論ステップにおけるモデルの現在の不確実性と不確実性の変動を捉える。
観測された変化に基づいて、LLMは確率に応じて探索を深めるか、拡大するか、または停止するかを選択する。
このように、推論精度と探索効率のバランスをとる。
4つのベンチマークデータセットに対する実験結果は、Entro-ductionの有効性を示している。
さらに、推論性能への貢献について議論するため、エントロダクションの要素に関する実験と分析を行う。
関連論文リスト
- Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Is Depth All You Need? An Exploration of Iterative Reasoning in LLMs [11.896234713853298]
問題の解答に直接寄与する関連する知識が、最初の推論経路から活性化されるかどうかを考察する。
実験の結果,初期推論経路の多様性を増大させることで,同等あるいは優れた性能が得られることがわかった。
そこで本研究では,文脈探索とサンプリングランダム性の低減を両立させることにより,推論幅を向上させる簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-02-15T16:59:59Z) - The Exploration-Exploitation Dilemma Revisited: An Entropy Perspective [18.389232051345825]
政策最適化において、探索への過度な依存は学習効率を低下させる一方、搾取への過度な依存は、局地的最適化においてエージェントを罠にする可能性がある。
本稿では,エントロピーの観点から,探査・探査ジレンマを再考する。
我々は、AdaZeroと呼ばれるエンドツーエンド適応フレームワークを構築し、探索するか、活用するかを自動的に決定する。
論文 参考訳(メタデータ) (2024-08-19T13:21:46Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Counterfactual Learning with Multioutput Deep Kernels [0.0]
本稿では,観測データを用いた反実的推論の課題に対処する。
本稿では、因果効果を推定し、適切にポリシーを学習する、対実的マルチタスクディープカーネルモデルの一般的なクラスを示す。
論文 参考訳(メタデータ) (2022-11-20T23:28:41Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - ADER:Adapting between Exploration and Robustness for Actor-Critic
Methods [8.750251598581102]
プリミティブな環境では,Vanilla actor-criticメソッドよりもTD3のパフォーマンスが遅れていることが示される。
本稿では,探索とロバストネスの間に適応する新しいアルゴリズム,すなわちADERを提案する。
いくつかの挑戦的な環境における実験は、連続制御タスクにおける提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-09-08T05:48:39Z) - Leveraging Global Parameters for Flow-based Neural Posterior Estimation [90.21090932619695]
実験観測に基づくモデルのパラメータを推定することは、科学的方法の中心である。
特に困難な設定は、モデルが強く不確定であるとき、すなわち、パラメータの異なるセットが同一の観測をもたらすときである。
本稿では,グローバルパラメータを共有する観測の補助的セットによって伝達される付加情報を利用して,その不確定性を破る手法を提案する。
論文 参考訳(メタデータ) (2021-02-12T12:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。