論文の概要: Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge
- arxiv url: http://arxiv.org/abs/2601.08808v1
- Date: Tue, 13 Jan 2026 18:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.331673
- Title: Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge
- Title(参考訳): 多重思考:token-wise branch-and-Mergeによる推論
- Authors: Yao Tang, Li Dong, Yaru Hao, Qingxiu Dong, Furu Wei, Jiatao Gu,
- Abstract要約: 大規模言語モデルは、しばしばChain-of-Thought (CoT)でより効果的に複雑な推論タスクを解決する。
対照的に、人間は、しばしば、もっともらしい次のステップに対して、引力のある確率分布を維持することによって、柔らかに理にかなっている。
我々は、K候補トークンをサンプリングし、それらの埋め込みを1つの連続多重化トークンに集約するソフトな推論機構である多重思考を提案する。
モデルは自信を持っていれば、多重化トークンはほぼ独立しており、標準のCoTのように振る舞う。
- 参考スコア(独自算出の注目度): 87.51901436392427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.
- Abstract(参考訳): 大規模言語モデルは、Chain-of-Thought (CoT)により複雑な推論タスクをより効果的に解決するが、長い、低帯域幅のトークンシーケンスのコストがかかる。
対照的に人間は、しばしば、もっともらしい次のステップの分布を維持することによって、柔らかに理にかなっている。
これは,各思考ステップにおいて,K候補トークンをサンプリングし,その埋め込みを1つの連続多重化トークンに集約する確率的ソフト推論機構である。
これは、複数のロールアウト上の抽出可能な確率分布を誘導しながら、プリエンディング前の語彙と標準離散生成のサンプリングダイナミクスを保存する。
これにより、多重軌跡をオンライン強化学習(RL)で直接最適化することができる。
重要なことは、多重化思考は自己適応的であり、モデルが自信を持つとき、多重化トークンはほぼ離散的であり、標準のCoTのように振る舞う。
挑戦的な数学推論ベンチマーク全体において、Multix Thinkingは、Pass@1からPass@1024までの強力な離散CoTとRLベースラインを一貫して上回り、短いシーケンスを生成する。
コードとチェックポイントはhttps://github.com/GMLR-Penn/Multiplex-Thinking.comで入手できる。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - Soft Tokens, Hard Truths [17.640897774014707]
この研究は、強化学習(RL)を通して連続CoTを学習するスケーラブルな方法を導入する。
我々は、RL探索を提供するために、トークンと入力埋め込みのノイズを混ぜた「ソフト」トークンを使用します。
LlamaとQwenのモデルによる数学推論ベンチマークでは、連続CoTによるトレーニングは、pass@1で離散CoTと一致し、pass@32でそれらを上回ります。
論文 参考訳(メタデータ) (2025-09-23T15:43:47Z) - Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [64.43689151961054]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。
我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文 参考訳(メタデータ) (2025-05-18T18:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。