論文の概要: SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.06222v1
- Date: Fri, 06 Mar 2026 12:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.698898
- Title: SPOT: Span-level Pause-of-Thought for Efficient and Interpretable Latent Reasoning in Large Language Models
- Title(参考訳): SPOT:大規模言語モデルにおける効率的かつ解釈可能な潜在推論のためのSpan-level Pause-of-Thought
- Authors: Yunlong Chu, Minglai Shao, Yuhang Liu, Bing Hao, Yumeng Lin, Jialu Wang, Ruijie Wang,
- Abstract要約: CoT (Explicit Chain-of-Thought) 計算はトークンレベルのトレースを内部化することによって高い推論コストを発生させる。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減しながら、平均2.3ポイントの精度を向上している。
- 参考スコア(独自算出の注目度): 15.95627037350657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explicit Chain-of-Thought improves the reasoning performance of large language models but often incurs high inference cost due to verbose token-level traces. While recent approaches reduce this overhead via concise prompting or step pruning, they largely truncate what the model says rather than internalize what the model thinks. Latent reasoning offers a promising alternative by performing computation in the hidden space, yet prior methods face two critical challenges. Many existing approaches rely on rigid point-to-point alignment, forcing a latent token to approximate the final representation of a reasoning step, which can be insufficient to capture the dense, variable-length semantics of an entire reasoning segment. Furthermore, these methods often suffer from a lack of interpretability: latent states are commonly produced by unconstrained optimization or embedding mixing, yielding vectors that are difficult to decode or audit under the pretrained language head. We propose SPOT, a flexible framework that compresses explicit CoT into compact latent pause tokens without enforcing a fixed response template. At the core of SPOT is Span-level Semantic Alignment, a Sinkhorn optimal-transport objective that softly matches each pause token to the semantics of an entire reasoning segment, overcoming the rigidity of step-end alignment. To further improve interpretability, SPOT introduces a Frozen-Head Decoding Constraint that keeps latent states directly decodable as token distributions under the frozen pretrained LM head, enabling readable keyword interpretations of latent thoughts. Experiments on reasoning benchmarks demonstrate that SPOT improves accuracy by 2.3 points on average while reducing generated tokens by 37.5% and provides faithful semantic interpretations of the latent reasoning process.
- Abstract(参考訳): 明示的なChain-of-Thoughtは、大きな言語モデルの推論性能を改善するが、冗長なトークンレベルのトレースのため、しばしば高い推論コストを発生させる。
最近のアプローチでは、簡潔なプロンプトやステッププルーニングによって、このオーバーヘッドを減らしていますが、モデルが考えていることを内部化するのではなく、モデルが言うものを大幅に減らしています。
潜在推論は、隠れた空間で計算を実行することで有望な代替手段を提供するが、以前の手法は2つの重要な課題に直面している。
既存の多くのアプローチは厳密な点対点アライメントに依存しており、潜在トークンは推論ステップの最終的な表現を近似させ、推論セグメント全体の密度の高い可変長セマンティクスをキャプチャするには不十分である。
さらに、これらの手法は解釈可能性の欠如に悩まされることが多く、潜在状態は非制約の最適化や埋め込みミキシングによって生成され、事前制約された言語ヘッドの下で復号化や監査が難しいベクトルが生成される。
固定応答テンプレートを強制せずに、明示的なCoTをコンパクトなポーズトークンに圧縮するフレキシブルなフレームワークであるSPOTを提案する。
SPOTのコアとなるSpanレベルセマンティックアライメント(Span-level Semantic Alignment)は、Sinkhornの最適トランスポート目的であり、各ポーズトークンと推論セグメント全体のセマンティクスとをソフトにマッチングし、ステップエンドアライメントの剛性を克服する。
解釈性をさらに向上するため、SPOTは、凍結した事前訓練されたLMヘッドの下のトークン分布として、潜伏状態を直接デオード可能なFrozen-Head Decoding Constraintを導入し、潜伏思想の読みやすいキーワード解釈を可能にした。
推論ベンチマークの実験では、SPOTは生成したトークンを37.5%削減し、平均2.3ポイントの精度を向上し、潜在推論プロセスの忠実な意味解釈を提供する。
関連論文リスト
- Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens [13.653741247835091]
Latent Thoughts Tuning(LT-Tuning)は、潜在思想の構築とデプロイ方法を再定義するフレームワークである。
本研究では,コンテキスト隠蔽状態と予測意味指導を協調的に活用するコンテキスト予測融合機構を提案する。
提案手法は,既存の潜在推論ベースラインより優れ,機能崩壊を効果的に軽減し,頑健な推論精度を実現する。
論文 参考訳(メタデータ) (2026-02-10T19:19:10Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。