論文の概要: LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking
- arxiv url: http://arxiv.org/abs/2508.03440v3
- Date: Thu, 07 Aug 2025 06:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.024683
- Title: LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking
- Title(参考訳): LLMはシングルスレッド共振器:ソフトシンキングの動作メカニズムの解明
- Authors: Chünhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のソフトな抽象トークン生成能力について検討する。
一般的な信念とは対照的に,LSMはその後の復号過程において,ソフトインプットの最も影響力のある要素に依存していることが明らかとなった。
この問題に対処するために,ディリクレ再サンプリングやGumbel-Softmax トリックなどの手法を用いて,エミュランドネスを導入するためのサンプリング戦略を検討する。
- 参考スコア(独自算出の注目度): 21.221368900834854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavior using a suite of probing techniques. Contrary to the common belief that Soft Thinking enables the simultaneous exploration of diverse reasoning paths, our findings reveal that LLMs predominantly rely on the most influential component of the soft inputs during subsequent decoding steps. This reliance hinders the exploration of different reasoning paths and reduces vanilla Soft Thinking to a form of greedy decoding, obscuring the advantage of transmitting more information through Soft Tokens. To tackle this issue, we explore sampling strategies to introduce \emph{randomness}, employing methods such as Dirichlet resampling and the Gumbel-Softmax trick. Our experiments demonstrate that incorporating randomness can alleviate the limitations of vanilla approaches and unleash the potential of Soft Thinking. Notably, the Gumbel-Softmax trick provides adequate randomness with controlled smoothness, resulting in superior performance across eight reasoning benchmarks.
- Abstract(参考訳): 人間の認知は自然に抽象的および流動的な概念に関わり、一方で既存の推論モデルは、しばしば個々のトークンを生成することに依存し、表現能力を制限する可能性がある。
最近の進歩は、大きな言語モデル(LLM)がソフトで抽象的なトークンを生成し、連続的な概念空間での推論を容易にすることで、この制限に対処することを目指している。
本稿では,モデルの内部動作を探索手法を用いて検証することにより,様々なLLMの「ソフトシンキング」機能について考察する。
ソフトシンキングが多様な推論経路の同時探索を可能にするという一般的な信念とは対照的に,LLMはその後の復号過程において,ソフトインプットの最も影響力のある要素に依存していることが明らかとなった。
この依存は、異なる推論経路の探索を妨げ、バニラ・ソフトシンキングを欲求的な復号化の形で減らし、ソフトトーケンを通じてより多くの情報を伝達する利点を無視する。
この問題に対処するために,ディリクレ再サンプリングやGumbel-Softmax トリックなどの手法を用いた 'emph{randomness} を導入するためのサンプリング戦略を検討する。
本実験は, ランダム性を取り入れることで, バニラアプローチの限界を緩和し, ソフト思考の可能性を解き放つことを示した。
特に、Gumbel-Softmax のトリックは、制御された滑らかさで適切なランダム性を提供し、8つの推論ベンチマークで優れたパフォーマンスをもたらす。
関連論文リスト
- Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs [17.335266921332092]
大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。
モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2025-07-22T11:22:58Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - "Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding [4.008780119020479]
大規模言語モデル(LLM)は強力な推論能力を示しており、多くの場合、ほとんどショットやゼロショットの連鎖(CoT)のプロンプトによるものである。
本稿では,LLMを体系的に推論を継続し,未熟な推論を防止できる新しい復号法を提案する。
論文 参考訳(メタデータ) (2025-03-13T08:46:32Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。