論文の概要: SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2510.05069v1
- Date: Mon, 06 Oct 2025 17:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.029075
- Title: SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs
- Title(参考訳): SwiReasoning:Pareto-Superior Reasoning LLMにおける遅延および明示的なスイッチシンキング
- Authors: Dachuan Shi, Abedelkadir Asi, Keying Li, Xiangchi Yuan, Leyan Pan, Wenke Lee, Wen Xiao,
- Abstract要約: SwiReasoningは、大規模言語モデル(LLM)推論のためのトレーニング不要のフレームワークである。
次点分布のエントロピー傾向から推定されるブロックワイド信頼によって導かれる明示的推論と潜在的推論を切り替える。
平均精度を1.5%-2.8%改善し、異なるモデルファミリーとスケールのLCMを推論する。
- 参考スコア(独自算出の注目度): 18.427352953242792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work shows that, beyond discrete reasoning through explicit chain-of-thought steps, which are limited by the boundaries of natural languages, large language models (LLMs) can also reason continuously in latent space, allowing richer information per step and thereby improving token efficiency. Despite this promise, latent reasoning still faces two challenges, especially in training-free settings: 1) purely latent reasoning broadens the search distribution by maintaining multiple implicit paths, which diffuses probability mass, introduces noise, and impedes convergence to a single high-confidence solution, thereby hurting accuracy; and 2) overthinking persists even without explicit text, wasting tokens and degrading efficiency. To address these issues, we introduce SwiReasoning, a training-free framework for LLM reasoning which features two key innovations: 1) SwiReasoning dynamically switches between explicit and latent reasoning, guided by block-wise confidence estimated from entropy trends in next-token distributions, to balance exploration and exploitation and promote timely convergence. 2) By limiting the maximum number of thinking-block switches, SwiReasoning curbs overthinking and improves token efficiency across varying problem difficulties. On widely used mathematics and STEM benchmarks, SwiReasoning consistently improves average accuracy by 1.5%-2.8% across reasoning LLMs of different model families and scales. Furthermore, under constrained budgets, SwiReasoning improves average token efficiency by 56%-79%, with larger gains as budgets tighten.
- Abstract(参考訳): 最近の研究は、自然言語の境界によって制限される明示的なチェーン・オブ・シークレット・ステップによる離散的推論を超えて、大きな言語モデル(LLM)が遅延空間において連続的に推論し、ステップ毎により豊かな情報を可能にし、トークン効率を向上させることを示している。
この約束にもかかわらず、潜伏推論は、特にトレーニング不要な環境では、まだ2つの課題に直面している。
1 純粋に潜伏推論は、確率質量を拡散し、ノイズを導入し、単一の高信頼解への収束を阻害し、精度を損なう複数の暗黙の経路を維持することにより、探索分布を拡大する。
2) 明示的なテキストを使わずに永続化を過度に考え、トークンを浪費し、効率を低下させます。
これらの問題に対処するために、LLM推論のためのトレーニング不要のフレームワークであるSwiReasoningを紹介します。
1)SwiReasoningは,次の分布のエントロピー傾向から推定されるブロックワイド信頼度によって導かれる明示的推論と潜在的推論を動的に切り換え,探索と利用のバランスをとり,タイムリーな収束を促進する。
2) 思考ブロックスイッチの最大数を制限することにより, SwiReasoningは, 様々な問題問題において, トークンの効率を過度に考慮し, 改善する。
広く使われている数学とSTEMベンチマークでは、SwiReasoningはモデルファミリとスケールの異なる LLM の推論において平均精度を1.5%-2.8%改善している。
さらに、制限された予算の下では、SwiReasoningは平均トークン効率を56%-79%改善し、予算の締め付けによりより大きな利得を達成している。
関連論文リスト
- Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Efficient Post-Training Refinement of Latent Reasoning in Large Language Models [22.878147805601706]
Chain-of-Thoughtのプロンプトは十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改良が妨げられる。
潜在推論の最近の進歩は、モデル潜在空間において内部推論プロセスを直接精製することによってこれらの制限に対処している。
本稿では,2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T08:17:16Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。
本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:57:31Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。