論文の概要: Beyond Imitation: Reinforcement Learning for Active Latent Planning
- arxiv url: http://arxiv.org/abs/2601.21598v1
- Date: Thu, 29 Jan 2026 12:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.788459
- Title: Beyond Imitation: Reinforcement Learning for Active Latent Planning
- Title(参考訳): 模倣を超えて:アクティブな潜在計画のための強化学習
- Authors: Zhi Zheng, Wee Sun Lee,
- Abstract要約: 潜時推論メソッド 個別の言語トークンを連続的な潜時トークンで置換するために、大言語モデルを微調整する。
現在の潜在トークンは一般的に、言語ラベルの模倣に基づいて管理される。
本稿では, ATP-Latentを条件付き変分自動エンコーダとして, 遅延トークンの監視過程をモデル化する。
- 参考スコア(独自算出の注目度): 18.05072303874982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens. These methods consume fewer tokens compared to the conventional language CoT reasoning and have the potential to plan in a dense latent space. However, current latent tokens are generally supervised based on imitating language labels. Considering that there can be multiple equivalent but diverse CoT labels for a question, passively imitating an arbitrary one may lead to inferior latent token representations and latent reasoning policies, undermining the potential planning ability and resulting in clear gaps between training and testing. In this work, we emphasize the importance of active planning over the representation space of latent tokens in achieving the optimal latent reasoning policy. So, we propose the \underline{A}c\underline{t}ive Latent \underline{P}lanning method (ATP-Latent), which models the supervision process of latent tokens as a conditional variational auto-encoder (VAE) to obtain a smoother latent space. Moreover, to facilitate the most reasonable latent reasoning policy, ATP-Latent conducts reinforcement learning (RL) with an auxiliary coherence reward, which is calculated based on the consistency between VAE-decoded contents of latent tokens, enabling a guided RL process. In experiments on LLaMA-1B, ATP-Latent demonstrates +4.1\% accuracy and -3.3\% tokens on four benchmarks compared to advanced baselines. Codes are available on https://github.com/zz1358m/ATP-Latent-master.
- Abstract(参考訳): 効率的で密集したチェーン・オブ・シークレット(CoT)推論を目標とし、遅延推論手法により、個別の言語トークンを連続的な潜在トークンで置き換える。
これらの手法は従来の言語であるCoTの推論よりも少ないトークンを消費し、密度の高い潜在空間で計画する可能性がある。
しかし、現在の潜在トークンは一般的に言語ラベルの模倣に基づいて管理されている。
質問に対して複数の等価だが多様なCoTラベルが存在することを考慮すれば、任意のラベルを受動的に模倣すると、劣等な潜在トークン表現と潜在推論ポリシーが生まれ、潜在的な計画能力が損なわれ、トレーニングとテストの間に明確なギャップが生じる可能性がある。
本研究では,最適潜伏推論ポリシを達成する上で,潜伏トークンの表現空間におけるアクティブプランニングの重要性を強調した。
そこで我々は,遅延トークンを条件付き変分自動エンコーダ(VAE)として,スムーズな遅延空間を得るために,遅延トークンの監督過程をモデル化する,従属型{A}c\underline{t}ive Latent \underline{P}lanning法(ATP-Latent)を提案する。
また、ATP-Latentは、最も合理的な潜伏推論ポリシーを促進するため、補助的コヒーレンス報酬で強化学習(RL)を行い、潜伏トークンのVAEデコードされた内容の一貫性に基づいて計算し、ガイド付きRLプロセスを可能にする。
LLaMA-1Bの実験では、ATP-Latentは高度なベースラインと比較して4つのベンチマークで+4.1\%の精度と-3.3\%のトークンを示す。
コードはhttps://github.com/zz1358m/ATP-Latent-masterで入手できる。
関連論文リスト
- Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge [87.51901436392427]
大規模言語モデルは、しばしばChain-of-Thought (CoT)でより効果的に複雑な推論タスクを解決する。
対照的に、人間は、しばしば、もっともらしい次のステップに対して、引力のある確率分布を維持することによって、柔らかに理にかなっている。
我々は、K候補トークンをサンプリングし、それらの埋め込みを1つの連続多重化トークンに集約するソフトな推論機構である多重思考を提案する。
モデルは自信を持っていれば、多重化トークンはほぼ独立しており、標準のCoTのように振る舞う。
論文 参考訳(メタデータ) (2026-01-13T18:48:00Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - Soft Tokens, Hard Truths [17.640897774014707]
この研究は、強化学習(RL)を通して連続CoTを学習するスケーラブルな方法を導入する。
我々は、RL探索を提供するために、トークンと入力埋め込みのノイズを混ぜた「ソフト」トークンを使用します。
LlamaとQwenのモデルによる数学推論ベンチマークでは、連続CoTによるトレーニングは、pass@1で離散CoTと一致し、pass@32でそれらを上回ります。
論文 参考訳(メタデータ) (2025-09-23T15:43:47Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。