論文の概要: MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts
- arxiv url: http://arxiv.org/abs/2509.25020v1
- Date: Mon, 29 Sep 2025 16:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.134242
- Title: MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts
- Title(参考訳): MARCOS: 継続的思考のMarkov Chain氏の深い考え
- Authors: Jiayu Liu, Zhenya Huang, Anya Sims, Enhong Chen, Yee Whye Teh, Ning Miao,
- Abstract要約: 大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
- 参考スコア(独自算出の注目度): 82.46857666702924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current paradigm for reasoning in large language models (LLMs) involves models "thinking out loud" via a sequence of tokens, known as chain-of-thought (CoT). This approach, while effective, has several significant drawbacks. Firstly, inference requires autoregressive generation of often thousands of CoT tokens, which is slow and computationally expensive. Secondly, it constrains reasoning to the discrete space of tokens, creating an information bottleneck across reasoning steps. Thirdly, it fundamentally entangles reasoning with token generation, forcing LLMs to "think while speaking," which causes potentially short-sighted reasoning. In light of these limitations, we re-imagine reasoning in LLMs and present a new paradigm: MARCOS. In our approach, rather than autoregressively generating tokens, we model reasoning as a hidden Markov chain of continuous, high-dimensional "thoughts". Each reasoning step involves a transition of the internal thoughts, where explicit reasoning steps (which may consist of hundreds of tokens) serve as observable variables, which are windows to peek into the implicit thoughts. Since this latent process is incompatible with the standard supervised learning, we further propose a two-phase variational training scheme. Our experiments on three benchmarks demonstrate that MARCOS outperforms existing continuous reasoning methods and, for the first time, achieves performance comparable to token-based CoT, even surpassing it by 4.7% on GSM8K with up to 15.7x speedup in inference. Beyond this, MARCOS offers additional advantages, such as step-level instead of token-level control over randomness, opening significant opportunities for reinforcement learning and reasoning in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論の現在のパラダイムは、チェーン・オブ・ソート(CoT)として知られる一連のトークンを通して「大声で考える」モデルである。
このアプローチは効果的だが、いくつかの重大な欠点がある。
第一に、推論には数千のCoTトークンの自動回帰生成が必要である。
第二に、トークンの離散的な空間に推論を制約し、推論ステップにまたがる情報ボトルネックを発生させる。
第3に、トークン生成による推論を根本的に絡み、LLMを「話しながら考える」ことを余儀なくされ、潜在的に近視的推論を引き起こす。
これらの制約を考慮して、LLMにおける推論を再定義し、新しいパラダイム MARCOS を提示する。
このアプローチでは、自己回帰的にトークンを生成するのではなく、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
それぞれの推論ステップは内部思想の遷移を伴い、明示的な推論ステップ(数百のトークンからなるかもしれない)が観測可能な変数として機能し、暗黙の思考を覗く窓である。
この潜在過程は標準教師付き学習と相容れないため、さらに2相変分学習方式を提案する。
3つのベンチマーク実験により、MARCOSは既存の連続推論手法より優れており、トークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは最大15.7倍の高速化で4.7%上回った。
さらに、MARCOSは、ランダム性に対するトークンレベルの制御の代わりにステップレベルの制御、LLMにおける強化学習と推論の重要な機会を開放するなど、さらなる利点を提供している。
関連論文リスト
- Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である
CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。
実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2025-06-09T14:55:00Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。
実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。
これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - Markov Chain of Thought for Efficient Mathematical Reasoning [10.678633785012691]
多段階の思考の連鎖(CoT)は、推論ステップとタスク固有のアクションの論理構造から恩恵を受ける。
我々は、標準多段階CoTを思考のマルコフ連鎖(MCoT)として概念化する。
我々のMCoTは、従来の推論ステップを単純化した質問に圧縮し、効率的な次ステップ推論を可能にすることを目的としている。
論文 参考訳(メタデータ) (2024-10-23T07:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。