論文の概要: Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens
- arxiv url: http://arxiv.org/abs/2602.10229v1
- Date: Tue, 10 Feb 2026 19:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.24723
- Title: Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens
- Title(参考訳): 潜伏思想のチューニング:潜伏トークンにおけるコンテキストのブリッジと融合情報による推論
- Authors: Weihao Liu, Dehai Min, Lu Cheng,
- Abstract要約: Latent Thoughts Tuning(LT-Tuning)は、潜在思想の構築とデプロイ方法を再定義するフレームワークである。
本研究では,コンテキスト隠蔽状態と予測意味指導を協調的に活用するコンテキスト予測融合機構を提案する。
提案手法は,既存の潜在推論ベースラインより優れ,機能崩壊を効果的に軽減し,頑健な推論精度を実現する。
- 参考スコア(独自算出の注目度): 13.653741247835091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While explicit Chain-of-Thought (CoT) equips Large Language Models (LLMs) with strong reasoning capabilities, it requires models to verbalize every intermediate step in text tokens, constraining the model thoughts to the discrete vocabulary space. Recently, reasoning in continuous latent space has emerged as a promising alternative, enabling more robust inference and flexible computation beyond discrete token constraints. However, current latent paradigms often suffer from feature collapse and instability, stemming from distribution mismatches when recurrently using hidden states as the input embeddings, or alignment issues when relying on assistant models. To address this, we propose Latent Thoughts Tuning (LT-Tuning), a framework that redefines how latent thoughts are constructed and deployed. Instead of relying solely on raw hidden states, our method introduces a Context-Prediction-Fusion mechanism that jointly leveraging contextual hidden states and predictive semantic guidance from the vocabulary embedding space. Combined with a progressive three-stage curriculum learning pipeline, LT-Tuning also enables dynamically switching between latent and explicit thinking modes. Experiments demonstrate that our method outperforms existing latent reasoning baselines, effectively mitigating feature collapse and achieving robust reasoning accuracy.
- Abstract(参考訳): CoT(Chain-of-Thought)は強い推論能力を持つLarge Language Models(LLMs)を具備するが、テキストトークンの中間ステップの全てを言語化し、モデルの思考を離散語彙空間に制約するモデルを必要とする。
近年、連続潜在空間における推論は有望な代替手段として現れており、離散トークン制約を超えたより堅牢な推論と柔軟な計算を可能にしている。
しかし、現在の潜伏パラダイムは、しばしば機能崩壊と不安定に悩まされ、入力埋め込みとして隠された状態を繰り返し使用するときの分布ミスマッチや、アシスタントモデルに依存するときのアライメントの問題に起因している。
この問題に対処するために,潜在思想の構築と展開方法を再定義するフレームワークである潜在思考チューニング(LT-Tuning)を提案する。
本手法では, 生の隠れ状態のみに頼るのではなく, 文脈的隠蔽状態と語彙埋め込み空間からの予測的意味指導を協調的に活用するコンテキスト予測融合機構を導入する。
プログレッシブな3段階のカリキュラム学習パイプラインと組み合わせることで、LT-Tuningは潜在的な思考モードと明示的な思考モードを動的に切り替えることを可能にする。
実験により,提案手法は既存の潜在推論ベースラインより優れ,機能崩壊を効果的に軽減し,頑健な推論精度を実現することを示した。
関連論文リスト
- Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning [30.62691333490551]
大規模言語モデル(LLM)は、思考の連鎖生成を通じて推論能力を示す。
連続潜在表現の表現性を統一する新しい推論フレームワークであるLaDiRを提案する。
LaDiRは、既存の自己回帰的、拡散的、潜伏的推論方法よりも、精度、多様性、解釈性を一貫して改善する。
論文 参考訳(メタデータ) (2025-10-06T08:15:03Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。