論文の概要: Latent Reasoning with Supervised Thinking States
- arxiv url: http://arxiv.org/abs/2602.08332v1
- Date: Mon, 09 Feb 2026 07:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.097474
- Title: Latent Reasoning with Supervised Thinking States
- Title(参考訳): 主観的思考状態の潜時推論
- Authors: Ido Amos, Avi Caciularu, Mor Geva, Amir Globerson, Jonathan Herzig, Lior Shani, Idan Szpektor,
- Abstract要約: チェーン・オブ・思想(CoT)による推論により、LLM(Large Language Models)は複雑なタスクを解決できるが、かなりの推論コストを発生させる。
我々は、入力が処理されている間に推論エムを実行する方法であるThinking Statesを提案する。
我々は、思考状態がCoTよりも強い推論行動をもたらし、トレーニング中に見られるよりも長いシーケンスへの外挿に成功したことを示す。
- 参考スコア(独自算出の注目度): 60.09942890192309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning with a chain-of-thought (CoT) enables Large Language Models (LLMs) to solve complex tasks but incurs significant inference costs due to the generation of long rationales. We propose Thinking States, a method that performs reasoning {\em while} the input is processing. Specifically, Thinking States generates sequences of thinking tokens every few input tokens, transforms the thoughts back into embedding space, and adds them to the following input tokens. This has two key advantages. First, it captures the recurrent nature of CoT, but where the thought tokens are generated as input is processing. Second, since the thoughts are represented as tokens, they can be learned from natural language supervision, and using teacher-forcing, which is parallelizable. Empirically, Thinking States outperforms other latent reasoning methods on multiple reasoning tasks, narrowing the gap to CoT on math problems, and matching its performance on 2-Hop QA with improved latency. On state-tracking tasks, we show Thinking States leads to stronger reasoning behavior than CoT, successfully extrapolating to longer sequences than seen during training.
- Abstract(参考訳): チェーン・オブ・思想(CoT)による推論により、LLM(Large Language Models)は複雑なタスクを解決できるが、長い合理性の生成によってかなりの推論コストが発生する。
本稿では、入力が処理されている間に推論を行う方法であるThinking Statesを提案する。
具体的には、思考状態はいくつかの入力トークンごとに思考トークンのシーケンスを生成し、思考を埋め込み空間に変換し、次の入力トークンに追加する。
これには2つの大きな利点がある。
第一に、CoTの繰り返しの性質をキャプチャするが、入力として思考トークンが生成されるのは処理である。
第二に、思考はトークンとして表現されるので、自然言語の監督や、並列化可能な教師強制によって学習することができる。
経験的に、Thinking Statesは、複数の推論タスクにおける他の潜伏推論手法よりも優れており、数学問題におけるCoTとのギャップを狭めており、2-Hop QAにおけるパフォーマンスとレイテンシの改善が一致している。
状態追跡タスクでは、思考状態はCoTよりも強い推論行動をもたらし、トレーニング中に見られるよりも長いシーケンスへの外挿に成功した。
関連論文リスト
- State over Tokens: Characterizing the Role of Reasoning Tokens [37.09286375762863]
大きな言語モデル(LLM)は、最終的な答えの前に推論トークンを生成し、複雑なタスクのパフォーマンスを向上させる。
LLMが行うプロセスを真に理解するためには、研究は推論トークンをテキストとして読むことを超えて、それらをステートとしてデコードすることに注力する必要がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-12-14T17:30:34Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Reasoning Models Can Be Effective Without Thinking [45.411955744222524]
NoThinkingと呼ばれる単純なプロンプトによって思考プロセスをバイパスすることは驚くほど効果的である。
提案手法は,Thinkingと同等のレイテンシで,より長いレイテンシ(最大9倍)でThinkingに匹敵する,一連のベースライン性能を向上する。
論文 参考訳(メタデータ) (2025-04-14T04:08:16Z) - Training Large Language Models to Reason in a Continuous Latent Space [71.0274000348354]
我々は、言語を超えた推論の可能性を探るため、Coconut (Chain of Continuous Thought)と呼ばれる新しいパラダイムを導入します。
この状態を単語に復号するのではなく、連続した空間に直接埋め込む次の入力としてモデルにフィードバックします。
この潜在的推論パラダイムは、継続的思考が複数の代替の次のステップをエンコードできる高度な推論パターンを可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。
我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
我々のMCoTは、従来の推論ステップを単純化した質問に圧縮し、効率的な次ステップ推論を可能にすることを目的としている。
論文 参考訳(メタデータ) (2024-10-23T07:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。