論文の概要: Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner
- arxiv url: http://arxiv.org/abs/2602.01705v2
- Date: Tue, 03 Feb 2026 23:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.708201
- Title: Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner
- Title(参考訳): モード励振を超えて:潜伏拡散共振器による多様性保存強化学習
- Authors: Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang, Yi-An Ma, Lianhui Qin,
- Abstract要約: LaDi-RL(Ladi-RL)は、連続的な潜伏空間で直接探索を行うフレームワークである。
誘導拡散による探索をモデル化することにより、多段階の分散性をデノベートし、複数の共存解モードを保存する。
コード生成と数学的推論ベンチマークの実験では、個別のRLよりもpass@1とpass@kで一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 23.232437167002406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reinforcement learning (RL) methods improve LLM reasoning by optimizing discrete Chain-of-Thought (CoT) generation; however, exploration in token space often suffers from diversity collapse as policy entropy decreases due to mode elicitation behavior in discrete RL. To mitigate this issue, we propose Latent Diffusion Reasoning with Reinforcement Learning (LaDi-RL), a framework that conducts exploration directly in a continuous latent space, where latent variables encode semantic-level reasoning trajectories. By modeling exploration via guided diffusion, multi-step denoising distributes stochasticity and preserves multiple coexisting solution modes without mutual suppression. Furthermore, by decoupling latent-space exploration from text-space generation, we show that latent diffusion-based optimization is more effective than text-space policy optimization alone, while a complementary text policy provides additional gains when combined with latent exploration. Experiments on code generation and mathematical reasoning benchmarks demonstrate consistent improvements in both pass@1 and pass@k over discrete RL baselines, with absolute pass@1 gains of +9.4% on code generation and +5.7% on mathematical reasoning, highlighting diffusion-based latent RL as a principled alternative to discrete token-level RL for reasoning.
- Abstract(参考訳): 近年の強化学習 (RL) 法は, 離散的連鎖(CoT)生成を最適化することによりLCM推論を改善するが, 離散的RLのモード誘発挙動により, 政策エントロピーが減少するにつれて, トークン空間の探索は多様性の崩壊に悩まされることが多い。
この問題を緩和するために,潜伏変数が意味レベルの推論軌道をエンコードする連続潜伏空間で直接探索を行うフレームワークであるLaDi-RL(Ladi-RL)を提案する。
誘導拡散による探索をモデル化することにより、マルチステップの分極は確率性を分散し、相互抑制なしに複数の共存解モードを保存する。
さらに,テキスト空間生成から遅延空間探索を分離することにより,遅延拡散に基づく最適化はテキスト空間ポリシーの最適化だけでは有効であり,補完的なテキストポリシーは遅延空間探索と組み合わせることでさらなる利益をもたらすことを示す。
コード生成と数学的推論ベンチマークの実験では、個別のRLベースラインよりもpass@1とpass@kが一貫した改善を示し、絶対的なpass@1ゲインはコード生成で+9.4%、数学的推論で+5.7%となり、分散ベースの遅延RLが推論における離散トークンレベルRLの原則的な代替として強調された。
関連論文リスト
- Latent-Space Contrastive Reinforcement Learning for Stable and Efficient LLM Reasoning [16.244366307890832]
textbfDeepLatent Reasoning(DLR)を提案する。
このフレームワークは、試行錯誤コストを、高価なトークンレベルのフルシーケンス生成から連続潜在多様体へシフトさせる。
実験により、DLRはより安定した訓練収束を実現し、より長い水平推論チェーンをサポートし、推論能力の持続的な蓄積を促進することが示されている。
論文 参考訳(メタデータ) (2026-01-24T03:18:22Z) - Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning [30.62691333490551]
大規模言語モデル(LLM)は、思考の連鎖生成を通じて推論能力を示す。
連続潜在表現の表現性を統一する新しい推論フレームワークであるLaDiRを提案する。
LaDiRは、既存の自己回帰的、拡散的、潜伏的推論方法よりも、精度、多様性、解釈性を一貫して改善する。
論文 参考訳(メタデータ) (2025-10-06T08:15:03Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。