論文の概要: Reinforcement Learning for Latent-Space Thinking in LLMs
- arxiv url: http://arxiv.org/abs/2512.11816v1
- Date: Wed, 26 Nov 2025 21:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.68963
- Title: Reinforcement Learning for Latent-Space Thinking in LLMs
- Title(参考訳): LLMにおける潜在空間思考のための強化学習
- Authors: Enes Özeren, Matthias Aßenmacher,
- Abstract要約: Chain-of-Thought (CoT) 推論は一般的に、個別の言語空間を思考に利用する。
潜在空間思考により、モデルは連続的な埋め込み空間を使って考えることができる。
- 参考スコア(独自算出の注目度): 2.3431309298961644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) reasoning typically utilizes the discrete language space for thinking, which is inherently inefficient, as many generated tokens only enforce linguistic rules that are not required for reasoning. To bypass this, latent-space thinking allows models to think using the continuous embedding space. While existing methods for training those models show domain-specific gains, they fail to maintain performance in complex tasks, such as mathematical reasoning. We experimentally demonstrate that the Coconut approach, a form of supervised fine-tuning for latent-space thinking, is highly sensitive to design choices and exhibits several inherent limitations. To address these issues, we investigate reinforcement learning (RL) techniques -- an underexplored direction in latent-space thinking -- including GRPO and design a novel Latent RL method for directly optimizing the latent thinking steps. Our experimental results reveal that these RL-trained models still lag behind traditional language-space CoT models in the mathematical reasoning domain. We make our codebase publicly available.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は一般的に思考に離散言語空間を利用するが、これは本質的に非効率であり、多くの生成されたトークンは推論に不要な言語規則のみを強制する。
これを回避するために、潜在空間思考により、モデルは連続的な埋め込み空間を使って考えることができる。
これらのモデルをトレーニングする既存の方法はドメイン固有のゲインを示すが、数学的推論のような複雑なタスクではパフォーマンスを維持することができない。
遅延空間思考のための教師付き微調整方式であるCoconutアプローチは,設計選択に非常に敏感であり,いくつかの固有の制約が存在することを実験的に実証した。
これらの課題に対処するために,GRPOを含む潜時空間思考の未探索方向である強化学習(RL)手法について検討し,潜時空間思考のステップを直接最適化する新しい潜時RL法を設計する。
実験の結果、これらのRL学習モデルは、数学的推論領域における従来の言語空間のCoTモデルより遅れていることが明らかとなった。
コードベースを公開しています。
関連論文リスト
- Towards Inference-time Scaling for Continuous Space Reasoning [55.40260529506702]
推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明されている。
本稿では,そのような確立された手法が連続空間における推論にうまく適応できるかどうかを考察する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
論文 参考訳(メタデータ) (2025-10-14T05:53:41Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs [17.335266921332092]
大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。
モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2025-07-22T11:22:58Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。