論文の概要: LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking
- arxiv url: http://arxiv.org/abs/2508.03440v3
- Date: Thu, 07 Aug 2025 06:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.024683
- Title: LLMs are Single-threaded Reasoners: Demystifying the Working Mechanism of Soft Thinking
- Title(参考訳): LLMはシングルスレッド共振器:ソフトシンキングの動作メカニズムの解明
- Authors: Chünhung Wu, Jinliang Lu, Zixuan Ren, Gangqiang Hu, Zhi Wu, Dai Dai, Hua Wu,
- Abstract要約: 本稿では,大規模言語モデル(LLM)のソフトな抽象トークン生成能力について検討する。
一般的な信念とは対照的に,LSMはその後の復号過程において,ソフトインプットの最も影響力のある要素に依存していることが明らかとなった。
この問題に対処するために,ディリクレ再サンプリングやGumbel-Softmax トリックなどの手法を用いて,エミュランドネスを導入するためのサンプリング戦略を検討する。
- 参考スコア(独自算出の注目度): 21.221368900834854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human cognition naturally engages with abstract and fluid concepts, whereas existing reasoning models often rely on generating discrete tokens, potentially constraining their expressive capabilities. Recent advancements aim to address this limitation by enabling large language models (LLMs) to generate soft, abstract tokens, thus facilitating reasoning within a continuous concept space. This paper explores the `Soft Thinking' capabilities of various LLMs by examining the models' internal behavior using a suite of probing techniques. Contrary to the common belief that Soft Thinking enables the simultaneous exploration of diverse reasoning paths, our findings reveal that LLMs predominantly rely on the most influential component of the soft inputs during subsequent decoding steps. This reliance hinders the exploration of different reasoning paths and reduces vanilla Soft Thinking to a form of greedy decoding, obscuring the advantage of transmitting more information through Soft Tokens. To tackle this issue, we explore sampling strategies to introduce \emph{randomness}, employing methods such as Dirichlet resampling and the Gumbel-Softmax trick. Our experiments demonstrate that incorporating randomness can alleviate the limitations of vanilla approaches and unleash the potential of Soft Thinking. Notably, the Gumbel-Softmax trick provides adequate randomness with controlled smoothness, resulting in superior performance across eight reasoning benchmarks.
- Abstract(参考訳): 人間の認知は自然に抽象的および流動的な概念に関わり、一方で既存の推論モデルは、しばしば個々のトークンを生成することに依存し、表現能力を制限する可能性がある。
最近の進歩は、大きな言語モデル(LLM)がソフトで抽象的なトークンを生成し、連続的な概念空間での推論を容易にすることで、この制限に対処することを目指している。
本稿では,モデルの内部動作を探索手法を用いて検証することにより,様々なLLMの「ソフトシンキング」機能について考察する。
ソフトシンキングが多様な推論経路の同時探索を可能にするという一般的な信念とは対照的に,LLMはその後の復号過程において,ソフトインプットの最も影響力のある要素に依存していることが明らかとなった。
この依存は、異なる推論経路の探索を妨げ、バニラ・ソフトシンキングを欲求的な復号化の形で減らし、ソフトトーケンを通じてより多くの情報を伝達する利点を無視する。
この問題に対処するために,ディリクレ再サンプリングやGumbel-Softmax トリックなどの手法を用いた 'emph{randomness} を導入するためのサンプリング戦略を検討する。
本実験は, ランダム性を取り入れることで, バニラアプローチの限界を緩和し, ソフト思考の可能性を解き放つことを示した。
特に、Gumbel-Softmax のトリックは、制御された滑らかさで適切なランダム性を提供し、8つの推論ベンチマークで優れたパフォーマンスをもたらす。
関連論文リスト
- Towards Generalizable Reasoning: Group Causal Counterfactual Policy Optimization for LLM Reasoning [50.352417879912515]
大規模言語モデル(LLM)は推論能力の進歩とともに複雑なタスクに優れる。
一般化可能な推論パターンを学習するために,LLMを明示的に訓練するためのグループ因果政策最適化を提案する。
次に、この報酬からトークンレベルのアドバンテージを構築し、ポリシーを最適化し、LCMにプロセス無効で事実上堅牢な推論パターンを推奨します。
論文 参考訳(メタデータ) (2026-02-06T08:03:11Z) - Improving Latent Reasoning in LLMs via Soft Concept Mixing [5.230565644173722]
大規模言語モデル(LLM)は通常、離散トークンを生成することによって推論される。
ソフトコンセプトを意識したトレーニングスキームであるソフトコンセプト混合(SCM)を提案する。
SCMはトレーニング中にモデルをソフト表現に公開する。
論文 参考訳(メタデータ) (2025-11-21T01:43:28Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - Latent Thinking Optimization: Your Latent Reasoning Language Model Secretly Encodes Reward Signals in Its Latent Thoughts [16.941385792353493]
大規模言語モデル(LLM)は、自然言語における思考の連鎖を生成することで問題解決において優れている。
最近の研究は、中間推論ステップを潜在表現のシーケンスとして表現する潜在思考アーキテクチャであるHuginn-3.5Bを提案する。
We show how how how Huginn-3.5B think in the latent space and how external supervision signal could improve the latent thinking process。
論文 参考訳(メタデータ) (2025-09-30T14:26:36Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs [17.335266921332092]
大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。
モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2025-07-22T11:22:58Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Reason from Future: Reverse Thought Chain Enhances LLM Reasoning [18.637191592875155]
我々はReason from Future(RFF)と呼ばれる新しい推論パラダイムを提案する。
RFFは、トップダウン計画とボトムアップ推論蓄積を組み合わせた双方向推論によって推論パスを生成する。
RFFは、複雑なタスクを解決するために、より正確で検索スペースの少ない従来のパラダイムよりも優れている。
論文 参考訳(メタデータ) (2025-06-04T08:03:17Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - "Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding [4.008780119020479]
大規模言語モデル(LLM)は強力な推論能力を示しており、多くの場合、ほとんどショットやゼロショットの連鎖(CoT)のプロンプトによるものである。
本稿では,LLMを体系的に推論を継続し,未熟な推論を防止できる新しい復号法を提案する。
論文 参考訳(メタデータ) (2025-03-13T08:46:32Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。