論文の概要: Soft Tokens, Hard Truths
- arxiv url: http://arxiv.org/abs/2509.19170v2
- Date: Wed, 24 Sep 2025 11:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.259933
- Title: Soft Tokens, Hard Truths
- Title(参考訳): 柔らかい剣、硬い真実
- Authors: Natasha Butt, Ariel Kwiatkowski, Ismail Labiad, Julia Kempe, Yann Ollivier,
- Abstract要約: この研究は、強化学習(RL)を通して連続CoTを学習するスケーラブルな方法を導入する。
我々は、RL探索を提供するために、トークンと入力埋め込みのノイズを混ぜた「ソフト」トークンを使用します。
LlamaとQwenのモデルによる数学推論ベンチマークでは、連続CoTによるトレーニングは、pass@1で離散CoTと一致し、pass@32でそれらを上回ります。
- 参考スコア(独自算出の注目度): 17.640897774014707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of continuous instead of discrete tokens during the Chain-of-Thought (CoT) phase of reasoning LLMs has garnered attention recently, based on the intuition that a continuous mixture of discrete tokens could simulate a superposition of several reasoning paths simultaneously. Theoretical results have formally proven that continuous tokens have much greater expressivity and can solve specific problems more efficiently. However, practical use of continuous tokens has been limited by strong training difficulties: previous works either just use continuous tokens at inference time on a pre-trained discrete-token model, or must distill the continuous CoT from ground-truth discrete CoTs and face computational costs that limit the CoT to very few tokens. This is the first work introducing a scalable method to learn continuous CoTs via reinforcement learning (RL), without distilling from reference discrete CoTs. We use "soft" tokens: mixtures of tokens together with noise on the input embedding to provide RL exploration. Computational overhead is minimal, enabling us to learn continuous CoTs with hundreds of tokens. On math reasoning benchmarks with Llama and Qwen models up to 8B, training with continuous CoTs match discrete-token CoTs for pass@1 and surpass them for pass@32, showing greater CoT diversity. In systematic comparisons, the best-performing scenario is to train with continuous CoT tokens then use discrete tokens for inference, meaning the "soft" models can be deployed in a standard way. Finally, we show continuous CoT RL training better preserves the predictions of the base model on out-of-domain tasks, thus providing a softer touch to the base model.
- Abstract(参考訳): 独立トークンの連続的な混合が複数の推論経路の重ね合わせを同時にシミュレートできるという直感に基づいて、LLMのチェーン・オブ・ソート(CoT)相における離散トークンの代わりに連続の使用が近年注目を集めている。
理論的な結果は、連続トークンがはるかに高い表現性を持ち、特定の問題をより効率的に解けることを正式に証明している。
以前の研究では、事前訓練された離散トークンモデルで推論時にのみ連続トークンを使用するか、または、基底トラスト離散CoTから連続CoTを蒸留し、CoTをごく少数のトークンに制限する計算コストに直面しなければならない。
これは、参照離散CoTを蒸留することなく、強化学習(RL)を介して連続CoTを学習するスケーラブルな方法を導入する最初の試みである。
我々は、RL探索を提供するために、トークンと入力埋め込みのノイズを混ぜた「ソフト」トークンを使用します。
計算オーバーヘッドは最小限であり、数百のトークンで継続的CoTを学習することができます。
LlamaとQwenのモデルによる数学推論ベンチマークでは、8Bまでのモデルで、連続CoTによるトレーニングは、pass@1で個別CoTと一致し、pass@32でそれらを上回り、CoTの多様性が向上した。
体系的な比較では、最もパフォーマンスの良いシナリオは、連続したCoTトークンを使用してトレーニングし、推論に個別トークンを使用することです。
最後に、連続したCoT RLトレーニングは、ドメイン外タスクにおけるベースモデルの予測をより良く保存し、ベースモデルへのソフトタッチを提供することを示す。
関連論文リスト
- Parallel Continuous Chain-of-Thought with Jacobi Iteration [39.36822246659272]
思考の連続的連鎖は、大きな言語モデルに対する推論トークンの保存に有効であることが示されている。
本稿では,遅延した思考トークンに対してジャコビ処理を行い,逐次ではなく反復的に更新する並列連続チェイン・オブ・ワット(PCCoT)を提案する。
論文 参考訳(メタデータ) (2025-06-23T12:35:41Z) - Continuous Chain of Thought Enables Parallel Exploration and Reasoning [38.59659461841282]
現在の言語モデルは、有限語彙から自己回帰的にトークンをサンプリングすることで、チェーン・オブ・シント・トレースを生成する。
我々の研究は、論理的推論タスクを通じて、継続的に評価されたトークン(CoT2)の利点を調べます。
我々は、CoT2が複数のトレースを並列に追跡し、推論効率の利点を定量化できることを示した。
論文 参考訳(メタデータ) (2025-05-29T16:58:28Z) - Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought [56.71873693264532]
連続CoTのD$ステップを持つ2層トランスが有向グラフ到達可能性問題を解くことができることを証明した。
我々の構成では、各連続思考ベクトルは複数の探索フロンティアを同時に符号化する重ね合わせ状態である。
論文 参考訳(メタデータ) (2025-05-18T18:36:53Z) - Chain-of-Thought Tokens are Computer Program Variables [24.55270838267279]
CoT(Chain-of- Thoughts)は、最終回答に到達する前に中間ステップを生成するために大きな言語モデルを必要とする。
2つの構成課題における大規模言語モデルにおけるCoTトークンの役割について検討する。
中間結果を保持するトークンのみを保存することで、同等のパフォーマンスが得られることが分かりました。
論文 参考訳(メタデータ) (2025-05-08T05:32:36Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。