論文の概要: Efficient Thought Space Exploration through Strategic Intervention
- arxiv url: http://arxiv.org/abs/2511.10038v1
- Date: Fri, 14 Nov 2025 01:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.657258
- Title: Efficient Thought Space Exploration through Strategic Intervention
- Title(参考訳): 戦略的介入による効率的な思考空間探索
- Authors: Ziheng Li, Hengyi Cai, Xiaochi Wei, Yuchen Li, Shuaiqiang Wang, Zhi-Hong Deng, Dawei Yin,
- Abstract要約: 本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
- 参考スコア(独自算出の注目度): 54.35208611253168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) demonstrate emerging reasoning capabilities, current inference-time expansion methods incur prohibitive computational costs by exhaustive sampling. Through analyzing decoding trajectories, we observe that most next-token predictions align well with the golden output, except for a few critical tokens that lead to deviations. Inspired by this phenomenon, we propose a novel Hint-Practice Reasoning (HPR) framework that operationalizes this insight through two synergistic components: 1) a hinter (powerful LLM) that provides probabilistic guidance at critical decision points, and 2) a practitioner (efficient smaller model) that executes major reasoning steps. The framework's core innovation lies in Distributional Inconsistency Reduction (DIR), a theoretically-grounded metric that dynamically identifies intervention points by quantifying the divergence between practitioner's reasoning trajectory and hinter's expected distribution in a tree-structured probabilistic space. Through iterative tree updates guided by DIR, HPR reweights promising reasoning paths while deprioritizing low-probability branches. Experiments across arithmetic and commonsense reasoning benchmarks demonstrate HPR's state-of-the-art efficiency-accuracy tradeoffs: it achieves comparable performance to self-consistency and MCTS baselines while decoding only 1/5 tokens, and outperforms existing methods by at most 5.1% absolute accuracy while maintaining similar or lower FLOPs.
- Abstract(参考訳): 大規模言語モデル(LLM)が出現する推論能力を示す一方で、現在の推論時間拡張手法は、排他的サンプリングによる計算コストの禁止を図っている。
復号軌道を解析することにより、ほとんどの次世代の予測は、ずれにつながるいくつかの臨界トークンを除いて、黄金の出力とうまく一致していることが観察される。
この現象にインスパイアされた新しいHint-Practice Reasoning(HPR)フレームワークを提案する。
1)臨界決定点の確率的ガイダンスを提供するヒント(強力なLLM)
2)主要な推論ステップを実行する実践者(効率の低いモデル)。
フレームワークの中核となる革新は、木構造確率空間における実践者の推論軌道とヒントの期待分布のばらつきを定量化し、介入点を動的に識別する理論的基盤を持つ計量である分散不整合減少(DIR)である。
DIRによってガイドされた反復的なツリー更新を通じて、HPRは低確率ブランチを優先順位付けしながら、有望な推論パスを再重み付けする。
HPRは1/5トークンのみを復号化しながら、自己整合性とMCTSベースラインに匹敵する性能を達成し、類似または低いFLOPを維持しながら、既存のメソッドを少なくとも5.1%の絶対精度で上回る。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching [14.503330877000758]
Time-Conditioned Contraction Matching is a novel method for semi-supervised anomaly detection in tabular data。
これは、確率分布間の速度場を学習する最近の生成モデリングフレームワークであるフローマッチングにインスパイアされている。
ADBenchベンチマークの大規模な実験により、TCCMは検出精度と推論コストのバランスが良好であることが示されている。
論文 参考訳(メタデータ) (2025-10-21T06:26:38Z) - A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning [31.861874030715953]
サンプリングに基づくテスト時間スケーリング手法を解析するための最初の理論的枠組みを提供する。
RPCは2つの重要なコンポーネント、パープレキシティ・一貫性と推論・プルーニングを通じて、理論的な洞察を活用するハイブリッド手法です。
RPCは、信頼性を向上するだけでなく、サンプリングコストを50%削減しながら、自己整合性に匹敵する推論性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T08:59:30Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。