論文の概要: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
- arxiv url: http://arxiv.org/abs/2505.23648v1
- Date: Thu, 29 May 2025 16:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.010183
- Title: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
- Title(参考訳): 思考の連続的連鎖は並列探索と推論を可能にする
- Authors: Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Hrayr Harutyunyan, Ankit Singh Rawat, Samet Oymak,
- Abstract要約: 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
我々の研究は、論理的推論タスクを通じて、継続的に評価されたトークン(CoT2)の利点を調べます。
我々は、CoT2が複数のトレースを並列に追跡し、推論効率の利点を定量化できることを示した。
- 参考スコア(独自算出の注目度): 38.59659461841282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current language models generate chain-of-thought traces by autoregressively sampling tokens from a finite vocabulary. While this discrete sampling has achieved remarkable success, conducting chain-of-thought with continuously-valued tokens (CoT2) offers a richer and more expressive alternative. Our work examines the benefits of CoT2 through logical reasoning tasks that inherently require search capabilities and provide optimization and exploration methods for CoT2. Theoretically, we show that CoT2 allows the model to track multiple traces in parallel and quantify its benefits for inference efficiency. Notably, one layer transformer equipped with CoT2 can provably solve the combinatorial "subset sum problem" given sufficient embedding dimension. These insights lead to a novel and effective supervision strategy where we match the softmax outputs to the empirical token distributions of a set of target traces. Complementing this, we introduce sampling strategies that unlock policy optimization and self-improvement for CoT2. Our first strategy samples and composes $K$ discrete tokens at each decoding step to control the level of parallelism, and reduces to standard CoT when $K=1$. Our second strategy relies on continuous exploration over the probability simplex. Experiments confirm that policy optimization with CoT2 indeed improves the performance of the model beyond its initial discrete or continuous supervision.
- Abstract(参考訳): 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
この離散的なサンプリングは顕著に成功したが、連続的に評価されたトークン(CoT2)でチェーン・オブ・シークレットを実行することは、よりリッチで表現力のある代替手段を提供する。
本研究は,CoT2の探索能力を本質的に要求する論理的推論タスクを通じて,CoT2の利点を検証し,CoT2の最適化と探索方法を提供する。
理論的には、CoT2は複数のトレースを並列に追跡し、推論効率の利点を定量化する。
特に、CoT2を具備した1つの層変圧器は、十分な埋め込み寸法の組合せ「サブセット和問題」を確実に解くことができる。
これらの知見は,ソフトマックス出力と目標トレースの経験的トークン分布とを一致させる,新しい効果的な監視戦略へと導かれる。
これらを補完し,CoT2の政策最適化と自己改善を開放するサンプリング戦略を導入する。
最初の戦略は、各デコードステップで$K$の離散トークンをサンプリングして構成し、並列性のレベルを制御し、$K=1$の場合には標準のCoTに還元する。
第2の戦略は確率的単純性に対する連続的な探索に依存します。
実験により、CoT2によるポリシーの最適化が、最初の個別または連続的な監視以上のモデルの性能を向上させることが確認された。
関連論文リスト
- Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings [44.77164359074224]
マルチモーダル大規模言語モデル(MLLM)は、ユニバーサル・マルチモーダル・エンベディング(UME)の進展に欠かせないものとなっている。
近年の研究では、生成的連鎖(CoT)推論を取り入れることで、タスク固有の表現が大幅に向上することが示されている。
本稿では,Embedder-Guided Reinforcement Learning (EG-RL)を統合した推論駆動型UMEフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-14T15:35:03Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models [38.784951111677856]
大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。
その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。
マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-17T03:38:19Z) - Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。
トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。
トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文 参考訳(メタデータ) (2025-06-06T11:53:27Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。
我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文 参考訳(メタデータ) (2025-05-18T18:36:53Z) - T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT [73.10972809774039]
本稿では,強化学習を利用した新たな推論型テキスト・画像生成モデルであるT2I-R1を提案する。
ベースラインモデルであるJanus-Proに推論戦略を適用することで、T2I-CompBenchを13%改善し、WISEベンチマークを19%改善し、優れた性能を実現した。
論文 参考訳(メタデータ) (2025-05-01T17:59:46Z) - To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。
シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。
バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文 参考訳(メタデータ) (2025-04-09T17:12:49Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Automatic Prompt Augmentation and Selection with Chain-of-Thought from
Labeled Data [20.68548644283721]
思考の連鎖(CoT)は、大規模言語モデル(LLM)の推論能力を向上させる
ほとんどのCoT研究は、LSMを促進するために慎重に設計された有理鎖に依存している。
本稿では,CoTの人間工学を回避できる新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-02-24T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。