論文の概要: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2505.23648v1
- Date: Thu, 29 May 2025 16:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.010183
- Title: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
- Title(参考訳): 思考の連続的連鎖は並列探索と推論を可能にする
- Authors: Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Hrayr Harutyunyan, Ankit Singh Rawat, Samet Oymak,
- Abstract要約: 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
我々の研究は、論理的推論タスクを通じて、継続的に評価されたトークン(CoT2)の利点を調べます。
我々は、CoT2が複数のトレースを並列に追跡し、推論効率の利点を定量化できることを示した。
- 参考スコア(独自算出の注目度): 38.59659461841282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current language models generate chain-of-thought traces by autoregressively sampling tokens from a finite vocabulary. While this discrete sampling has achieved remarkable success, conducting chain-of-thought with continuously-valued tokens (CoT2) offers a richer and more expressive alternative. Our work examines the benefits of CoT2 through logical reasoning tasks that inherently require search capabilities and provide optimization and exploration methods for CoT2. Theoretically, we show that CoT2 allows the model to track multiple traces in parallel and quantify its benefits for inference efficiency. Notably, one layer transformer equipped with CoT2 can provably solve the combinatorial "subset sum problem" given sufficient embedding dimension. These insights lead to a novel and effective supervision strategy where we match the softmax outputs to the empirical token distributions of a set of target traces. Complementing this, we introduce sampling strategies that unlock policy optimization and self-improvement for CoT2. Our first strategy samples and composes $K$ discrete tokens at each decoding step to control the level of parallelism, and reduces to standard CoT when $K=1$. Our second strategy relies on continuous exploration over the probability simplex. Experiments confirm that policy optimization with CoT2 indeed improves the performance of the model beyond its initial discrete or continuous supervision.
- Abstract(参考訳): 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
この離散的なサンプリングは顕著に成功したが、連続的に評価されたトークン(CoT2)でチェーン・オブ・シークレットを実行することは、よりリッチで表現力のある代替手段を提供する。
本研究は,CoT2の探索能力を本質的に要求する論理的推論タスクを通じて,CoT2の利点を検証し,CoT2の最適化と探索方法を提供する。
理論的には、CoT2は複数のトレースを並列に追跡し、推論効率の利点を定量化する。
特に、CoT2を具備した1つの層変圧器は、十分な埋め込み寸法の組合せ「サブセット和問題」を確実に解くことができる。
これらの知見は,ソフトマックス出力と目標トレースの経験的トークン分布とを一致させる,新しい効果的な監視戦略へと導かれる。
これらを補完し,CoT2の政策最適化と自己改善を開放するサンプリング戦略を導入する。
最初の戦略は、各デコードステップで$K$の離散トークンをサンプリングして構成し、並列性のレベルを制御し、$K=1$の場合には標準のCoTに還元する。
第2の戦略は確率的単純性に対する連続的な探索に依存します。
実験により、CoT2によるポリシーの最適化が、最初の個別または連続的な監視以上のモデルの性能を向上させることが確認された。
関連論文リスト
- Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。
我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文 参考訳(メタデータ) (2025-05-18T18:36:53Z) - T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT [73.10972809774039]
本稿では,強化学習を利用した新たな推論型テキスト・画像生成モデルであるT2I-R1を提案する。
ベースラインモデルであるJanus-Proに推論戦略を適用することで、T2I-CompBenchを13%改善し、WISEベンチマークを19%改善し、優れた性能を実現した。
論文 参考訳(メタデータ) (2025-05-01T17:59:46Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。
バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Automatic Prompt Augmentation and Selection with Chain-of-Thought from
Labeled Data [20.68548644283721]
思考の連鎖(CoT)は、大規模言語モデル(LLM)の推論能力を向上させる
ほとんどのCoT研究は、LSMを促進するために慎重に設計された有理鎖に依存している。
本稿では,CoTの人間工学を回避できる新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-02-24T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。