Fugu-MT 論文翻訳(概要): Continuous Chain of Thought Enables Parallel Exploration and Reasoning

論文の概要: Continuous Chain of Thought Enables Parallel Exploration and Reasoning

arxiv url: http://arxiv.org/abs/2505.23648v1
Date: Thu, 29 May 2025 16:58:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:08.010183
Title: Continuous Chain of Thought Enables Parallel Exploration and Reasoning
Title（参考訳）: 思考の連続的連鎖は並列探索と推論を可能にする
Authors: Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Hrayr Harutyunyan, Ankit Singh Rawat, Samet Oymak,
Abstract要約: 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。我々の研究は、論理的推論タスクを通じて、継続的に評価されたトークン(CoT2)の利点を調べます。我々は、CoT2が複数のトレースを並列に追跡し、推論効率の利点を定量化できることを示した。
参考スコア（独自算出の注目度）: 38.59659461841282
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Current language models generate chain-of-thought traces by autoregressively sampling tokens from a finite vocabulary. While this discrete sampling has achieved remarkable success, conducting chain-of-thought with continuously-valued tokens (CoT2) offers a richer and more expressive alternative. Our work examines the benefits of CoT2 through logical reasoning tasks that inherently require search capabilities and provide optimization and exploration methods for CoT2. Theoretically, we show that CoT2 allows the model to track multiple traces in parallel and quantify its benefits for inference efficiency. Notably, one layer transformer equipped with CoT2 can provably solve the combinatorial "subset sum problem" given sufficient embedding dimension. These insights lead to a novel and effective supervision strategy where we match the softmax outputs to the empirical token distributions of a set of target traces. Complementing this, we introduce sampling strategies that unlock policy optimization and self-improvement for CoT2. Our first strategy samples and composes $K$ discrete tokens at each decoding step to control the level of parallelism, and reduces to standard CoT when $K=1$. Our second strategy relies on continuous exploration over the probability simplex. Experiments confirm that policy optimization with CoT2 indeed improves the performance of the model beyond its initial discrete or continuous supervision.
Abstract（参考訳）: 現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。この離散的なサンプリングは顕著に成功したが、連続的に評価されたトークン(CoT2)でチェーン・オブ・シークレットを実行することは、よりリッチで表現力のある代替手段を提供する。本研究は,CoT2の探索能力を本質的に要求する論理的推論タスクを通じて,CoT2の利点を検証し,CoT2の最適化と探索方法を提供する。理論的には、CoT2は複数のトレースを並列に追跡し、推論効率の利点を定量化する。特に、CoT2を具備した1つの層変圧器は、十分な埋め込み寸法の組合せ「サブセット和問題」を確実に解くことができる。これらの知見は,ソフトマックス出力と目標トレースの経験的トークン分布とを一致させる,新しい効果的な監視戦略へと導かれる。これらを補完し,CoT2の政策最適化と自己改善を開放するサンプリング戦略を導入する。最初の戦略は、各デコードステップで$K$の離散トークンをサンプリングして構成し、並列性のレベルを制御し、$K=1$の場合には標準のCoTに還元する。第2の戦略は確率的単純性に対する連続的な探索に依存します。実験により、CoT2によるポリシーの最適化が、最初の個別または連続的な監視以上のモデルの性能を向上させることが確認された。

関連論文リスト

S$^4$C: Speculative Sampling with Syntactic and Semantic Coherence for Efficient Inference of Large Language Models [38.784951111677856]
大規模言語モデル(LLM)は、様々な下流タスクにまたがる顕著な推論能力を示す。その自己回帰的な性質は、相当なレイテンシ推論をもたらし、リアルタイムアプリケーションに課題を提起する。マルチヘッドドラフトを利用して投機的サンプリングを拡張するSyntactic and Semantic Coherenceフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-17T03:38:19Z)
Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models [9.282278040339138]
CoT(Chain-of-Thought)技術は、複雑な推論タスクにおける大規模言語モデル(LLM)の性能向上に有効であることが証明されている。トークン確率分布の単調性はCoT推論により得られる利得と相関する可能性があることを予備観測する。トークン確率分布に基づく2つの指標を提案し,異なるタスク間でCoTの有効性を評価する。
論文参考訳（メタデータ） (2025-06-06T11:53:27Z)
Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。 TPAUC最適化のための既存のアルゴリズムは未探索のままである。 TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文参考訳（メタデータ） (2025-05-28T03:55:05Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文参考訳（メタデータ） (2025-05-18T18:36:53Z)
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT [73.10972809774039]
本稿では,強化学習を利用した新たな推論型テキスト・画像生成モデルであるT2I-R1を提案する。ベースラインモデルであるJanus-Proに推論戦略を適用することで、T2I-CompBenchを13%改善し、WISEベンチマークを19%改善し、優れた性能を実現した。
論文参考訳（メタデータ） (2025-05-01T17:59:46Z)
To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning [31.21491548356213]
バックトラックは、長いチェーン・オブ・シント(CoT)生成による逐次線形化探索を可能にすることによって、テスト時間計算を自然にスケールする。シーケンシャル検索の普及にもかかわらず、並列サンプリングよりも優位性はよく分かっていない。バックトラック機能を持つモデルはRL微調整の恩恵を受けるが,バックトラック機能を持たないモデルは限定的かつ混合的なゲインを示す。
論文参考訳（メタデータ） (2025-04-09T17:12:49Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文参考訳（メタデータ） (2024-03-21T11:34:26Z)
Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data [20.68548644283721]
思考の連鎖(CoT)は、大規模言語モデル(LLM)の推論能力を向上させるほとんどのCoT研究は、LSMを促進するために慎重に設計された有理鎖に依存している。本稿では,CoTの人間工学を回避できる新しい戦略を提案する。
論文参考訳（メタデータ） (2023-02-24T18:58:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。