論文の概要: LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking
- arxiv url: http://arxiv.org/abs/2508.03440v4
- Date: Thu, 16 Oct 2025 01:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.456525
- Title: LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking
- Title(参考訳): LLMはシングルスレッド共振器:ソフトシンキングの動作メカニズムの解明
- Authors: Junhong Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu,
- Abstract要約: 大規模言語モデル(LLM)のソフト思考能力について検討する。
ソフトシンキングが多様な推論経路の並列探索を支援するという一般的な信念とは対照的に,LLMはシングルスレッドの推論として振る舞うことが明らかとなった。
我々の実験は、特にGumbel-max のトリックと無作為性がバニラアプローチの限界を緩和できることを示した。
- 参考スコア(独自算出の注目度): 25.468889616586363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. In this paper, we investigate the Soft Thinking capabilities of various LLMs through a systematic analysis of their internal behavior using a suite of probing techniques. Contrary to the prevailing belief that Soft Thinking supports parallel exploration of diverse reasoning paths, our findings reveal that LLMs behave as single-threaded reasoners--they predominantly rely on the token with the highest probability in the soft input to predict the next step. This behavior induces a greedy feedback loop that suppresses alternative reasoning paths and undermines the benefits of transmitting richer information via Soft Tokens. To address this Greedy Pitfall, we propose Stochastic Soft Thinking, which introduces stochasticity to break free from this Greedy Pitfall. Our experiments demonstrate that incorporating randomness--particularly with the Gumbel-Softmax trick--can alleviate the limitations of vanilla approaches and unleash the potential of Soft Thinking, resulting in superior performance across eight reasoning benchmarks. We further demonstrate that Stochastic Soft Thinking exhibits stronger exploration potential compared to conventional COT. Our findings deepen the understanding of continuous reasoning and establish the foundation for future work on improving Soft Thinking with Reinforcement Learning.
- Abstract(参考訳): 人間の認知は自然に抽象的および流動的な概念に関わり、一方で既存の推論モデルは、しばしば個々のトークンを生成することに依存し、表現能力を制限する可能性がある。
最近の進歩は、大きな言語モデル(LLM)がソフトで抽象的なトークンを生成し、連続的な概念空間での推論を容易にすることで、この制限に対処することを目指している。
本稿では,様々なLLMのソフトシンキング能力について,一連の探索手法を用いて内部動作の系統的解析を通して検討する。
ソフト思考が多様な推論経路の並列探索を支援するという一般的な信念とは対照的に,我々の研究結果は,LSMが単一スレッドの推論器として振る舞うことを,主にソフト入力の確率が最も高いトークンに依存して次のステップを予測することを明らかにしている。この行動は,代替推論経路を抑え,ソフトトークンによるリッチな情報伝達の利点を損なう,欲求フィードバックループを誘導する。このグレディピットフォールに対処するため,確率性を導入してこのグレーディピットフォールから解放する確率的ソフト思考を提案する。
さらに, 確率的ソフトシンキングは従来のCOTと比較して, より強力な探索可能性を示すことを示した。
本研究は,継続的推論の理解を深め,強化学習によるソフト思考の改善に向けた今後の研究の基盤を確立するものである。
関連論文リスト
- Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs [17.335266921332092]
大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。
モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2025-07-22T11:22:58Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - "Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding [4.008780119020479]
大規模言語モデル(LLM)は強力な推論能力を示しており、多くの場合、ほとんどショットやゼロショットの連鎖(CoT)のプロンプトによるものである。
本稿では,LLMを体系的に推論を継続し,未熟な推論を防止できる新しい復号法を提案する。
論文 参考訳(メタデータ) (2025-03-13T08:46:32Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。