論文の概要: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2505.23648v2
- Date: Sun, 28 Sep 2025 16:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.383578
- Title: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
- Title(参考訳): 思考の連続的連鎖は並列探索と推論を可能にする
- Authors: Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Hrayr Harutyunyan, Ankit Singh Rawat, Samet Oymak,
- Abstract要約: 連続価値トークン(CoT2)による思考の連鎖は、本質的に探索能力を必要とする論理的推論タスクによって動機付けられている。
我々は、CoT2が複数の離散トレースを並列に追跡するのにどのように役立つかを示す。
また, 埋込次元が十分であれば, サブセット和問題(subset sum problem)を解くCoT2ベースの一層変圧器も提供する。
- 参考スコア(独自算出の注目度): 39.37806940098749
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern language models generate chain-of-thought traces by autoregressively sampling tokens from a finite vocabulary. While this discrete sampling has achieved remarkable success, conducting chain-of-thought with continuously-valued tokens (CoT2) offers a richer and more expressive alternative. Our work provides new theoretical guarantees and algorithms for CoT2, motivated by logical reasoning tasks that inherently require search capabilities. Theoretically, we establish how CoT2 facilitates the model to track multiple discrete traces in parallel; and quantify the level of achievable parallelism and its benefits for inference efficiency. We also provide a CoT2-based one-layer transformer construction that solves the combinatorial "subset sum problem" given a sufficient embedding dimension. These insights arise from a novel and effective supervision strategy where we match the language model outputs to the empirical token distributions of a set of target traces. Complementing this, we introduce sampling strategies that unlock policy optimization methods for CoT2. Our primary strategy samples and composes $K$ discrete tokens at each decoding step to control the level of parallelism. Experiments confirm that (i) the optimal level of parallelism is governed by the embedding dimension, (ii) our continuous supervision strategy can outperform alternative methods, and (iii) policy optimization with CoT2 indeed improves the performance of the model beyond its initial discrete or continuous supervision.
- Abstract(参考訳): 現代の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
この離散的なサンプリングは顕著に成功したが、連続的に評価されたトークン(CoT2)でチェーン・オブ・シークレットを実行することは、よりリッチで表現力のある代替手段を提供する。
我々の研究は、CoT2に対して、本質的に探索能力を必要とする論理的推論タスクを動機として、新たな理論的保証とアルゴリズムを提供する。
理論的には、CoT2が複数の離散トレースを並列に追跡するためにモデルをどのように促進するかを確立し、達成可能な並列性のレベルとその推論効率の利点を定量化する。
また,CoT2をベースとした1層変圧器の構成を行い,十分な埋め込み次元の組合せ「サブセット和問題」を解く。
これらの知見は、言語モデルの出力とターゲットトレースの集合の経験的トークン分布とを一致させる、新しく効果的な監視戦略から得られます。
これらを補完し,CoT2のポリシー最適化手法をアンロックするサンプリング戦略を導入する。
我々の主要な戦略は、並列性のレベルを制御するために、各デコードステップで$K$の離散トークンをサンプリングして構成する。
実験はそれを裏付ける
i) 最適並列性のレベルは埋め込み次元によって支配される。
(二)我々の継続的監督戦略は、代替手段に勝ることができ、
三 CoT2 による政策最適化は、最初の離散的または連続的な監視を超えて、モデルの性能を実際に向上させる。
関連論文リスト
- S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models [38.784951111677856]
大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。
その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。
マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-17T03:38:19Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。
我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文 参考訳(メタデータ) (2025-05-18T18:36:53Z) - T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT [73.10972809774039]
本稿では,強化学習を利用した新たな推論型テキスト・画像生成モデルであるT2I-R1を提案する。
ベースラインモデルであるJanus-Proに推論戦略を適用することで、T2I-CompBenchを13%改善し、WISEベンチマークを19%改善し、優れた性能を実現した。
論文 参考訳(メタデータ) (2025-05-01T17:59:46Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。
バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Automatic Prompt Augmentation and Selection with Chain-of-Thought from
Labeled Data [20.68548644283721]
思考の連鎖(CoT)は、大規模言語モデル(LLM)の推論能力を向上させる
ほとんどのCoT研究は、LSMを促進するために慎重に設計された有理鎖に依存している。
本稿では,CoTの人間工学を回避できる新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-02-24T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。