論文の概要: LEPO: Latent Reasoning Policy Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.17892v2
- Date: Tue, 21 Apr 2026 03:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.936308
- Title: LEPO: Latent Reasoning Policy Optimization for Large Language Models
- Title(参考訳): LEPO:大規模言語モデルの潜在推論ポリシー最適化
- Authors: Yuyan Zhou, Jiarui Yu, Hande Dong, Zhezheng Hao, Hong Wang, Jianqing Zhang, Qiang Lin,
- Abstract要約: Gumbel-Softmax による潜在推論に制御性を導入する。
textbfunderline Latent Rtextbfunderlineesoning textbfunderlinePolicy textbfunderlineOptimization(textbfLEPO)を提案する。
テストでは、LEPOは離散的および潜在的推論のために既存のRL法を著しく上回っている。
- 参考スコア(独自算出の注目度): 11.032175358561162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, latent reasoning has been introduced into large language models (LLMs) to leverage rich information within a continuous space. However, without stochastic sampling, these methods inevitably collapse to deterministic inference, failing to discover diverse reasoning paths. To bridge the gap, we inject controllable stochasticity into latent reasoning via Gumbel-Softmax, restoring LLMs' exploratory capacity and enhancing their compatibility with Reinforcement Learning (RL). Building on this, we propose \textbf{\underline{L}}atent R\textbf{\underline{e}}asoning \textbf{\underline{P}}olicy \textbf{\underline{O}}ptimization~(\textbf{LEPO}), a novel framework that applies RL directly to continuous latent representations. Specifically, in rollout stage, LEPO maintains stochasticity to enable diverse trajectory sampling, while in optimization stage, LEPO constructs a unified gradient estimation for both latent representations and discrete tokens. Extensive experiments show that LEPO significantly outperforms existing RL methods for discrete and latent reasoning.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) に潜時推論を導入し,連続した空間内でリッチな情報を活用する手法が提案されている。
しかし、確率的なサンプリングがなければ、これらの手法は必然的に決定論的推論に崩壊し、多様な推論経路を見つけられなかった。
このギャップを埋めるために、Gumbel-Softmaxを介して制御可能な確率性を潜在推論に注入し、LLMの探索能力を回復し、強化学習(Reinforcement Learning, RL)との互換性を高める。
これに基づいて、RLを連続潜在表現に直接適用する新しいフレームワークである、textbf{\underline{L}}atent R\textbf{\underline{e}}asoning \textbf{\underline{P}}olicy \textbf{\underline{O}}ptimization~(\textbf{LEPO})を提案する。
具体的には、ロールアウト段階では、LEPOは様々な軌道サンプリングを可能にする確率性を維持し、最適化段階では、LEPOは遅延表現と離散トークンの両方に対して統一的な勾配推定を構築する。
大規模な実験により、LEPOは離散的および潜在的推論のために既存のRL法を著しく上回っていることが示された。
関連論文リスト
- Reinforcement Learning with Promising Tokens for Large Language Models [11.420715885411925]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の整合と最適化のための重要なパラダイムとして登場した。
本稿では,トークン生成から戦略的意思決定を分離することで行動空間の問題を軽減するフレームワークであるReinforcement Learning with Promising Tokens(R)を紹介する。
論文 参考訳(メタデータ) (2026-02-03T07:08:06Z) - Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner [23.232437167002406]
LaDi-RL(Ladi-RL)は、連続的な潜伏空間で直接探索を行うフレームワークである。
誘導拡散による探索をモデル化することにより、多段階の分散性をデノベートし、複数の共存解モードを保存する。
コード生成と数学的推論ベンチマークの実験では、個別のRLよりもpass@1とpass@kで一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-02-02T06:26:31Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。