論文の概要: Direct Soft-Policy Sampling via Langevin Dynamics
- arxiv url: http://arxiv.org/abs/2602.07873v1
- Date: Sun, 08 Feb 2026 09:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.842333
- Title: Direct Soft-Policy Sampling via Langevin Dynamics
- Title(参考訳): ランゲヴィンダイナミクスによる直接軟質サンプリング
- Authors: Donghyeon Ki, Hee-Jun Ahn, Kyungyoon Kim, Byung-Jun Lee,
- Abstract要約: Langevin Q-Learning (NCLQL) は、順次スムーズな値エントロピーを誘導するノイズ条件付きQ-関数を学習する。
OpenAI Gym MuJoCoベンチマークでは、NC-LQLはオンラインRLにシンプルだが強力なソリューションを提供する。
- 参考スコア(独自算出の注目度): 4.94481688445056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Soft policies in reinforcement learning define policies as Boltzmann distributions over state-action value functions, providing a principled mechanism for balancing exploration and exploitation. However, realizing such soft policies in practice remains challenging. Existing approaches either depend on parametric policies with limited expressivity or employ diffusion-based policies whose intractable likelihoods hinder reliable entropy estimation in soft policy objectives. We address this challenge by directly realizing soft-policy sampling via Langevin dynamics driven by the action gradient of the Q-function. This perspective leads to Langevin Q-Learning (LQL), which samples actions from the target Boltzmann distribution without explicitly parameterizing the policy. However, directly applying Langevin dynamics suffers from slow mixing in high-dimensional and non-convex Q-landscapes, limiting its practical effectiveness. To overcome this, we propose Noise-Conditioned Langevin Q-Learning (NC-LQL), which integrates multi-scale noise perturbations into the value function. NC-LQL learns a noise-conditioned Q-function that induces a sequence of progressively smoothed value landscapes, enabling sampling to transition from global exploration to precise mode refinement. On OpenAI Gym MuJoCo benchmarks, NC-LQL achieves competitive performance compared to state-of-the-art diffusion-based methods, providing a simple yet powerful solution for online RL.
- Abstract(参考訳): 強化学習におけるソフトポリシーは、政策をボルツマンの状態-作用値関数上の分布として定義し、探索と搾取のバランスをとるための原則的なメカニズムを提供する。
しかし、そのようなソフトな政策を実際に実現することは依然として困難である。
既存のアプローチは、限定的な表現性を持つパラメトリックポリシーに依存するか、あるいは、難易度がソフトポリシーの目的において信頼性の高いエントロピー推定を妨げている拡散ベースのポリシーを採用するかのいずれかである。
我々は,Q-関数の作用勾配によって引き起こされるランゲヴィン力学によるソフトポリシーサンプリングを直接実現することによって,この問題に対処する。
この観点からLangevin Q-Learning(LQL)は、ポリシを明示的にパラメータ化することなく、ターゲットのBoltzmannディストリビューションからアクションをサンプリングする。
しかし、ランゲヴィン力学の直接適用は、高次元および非凸Qランドスケープの緩やかな混合に悩まされ、実用的効果が制限される。
これを解決するために,マルチスケールノイズ摂動を値関数に統合したNC-LQL(Noss-Conditioned Langevin Q-Learning)を提案する。
NC-LQLは、段階的に滑らかな値ランドスケープのシーケンスを誘導するノイズ条件付きQ-関数を学習し、グローバルな探索から正確なモードリファインメントへの移行を可能にする。
OpenAI Gym MuJoCoベンチマークでは、NC-LQLは最先端の拡散ベースの手法と比較して、競争力のあるパフォーマンスを実現している。
関連論文リスト
- Stabilizing the Q-Gradient Field for Policy Smoothness in Actor-Critic [7.536387580547838]
政策非平滑性は批評家の微分幾何学によって支配されていると論じる。
批判中心の正規化フレームワークであるPAVEを紹介する。
PAVEは局所曲率を維持しながらQ段階のボラティリティを最小化して学習信号を補正する。
論文 参考訳(メタデータ) (2026-01-30T13:32:52Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic [12.837649598521102]
本稿では,連続制御タスクのためのQ-guided STein variational model predictive Actor-Critic (Q-STAC)フレームワークを提案する。
本手法では,学習したQ値を直接目的とする制御シーケンスを最適化し,明示的なコスト関数設計の必要性を解消する。
2次元ナビゲーションとロボット操作タスクの実験は、Q-STACが最先端のアルゴリズムと比較して優れたサンプリング効率、堅牢性、最適性を達成することを示した。
論文 参考訳(メタデータ) (2025-07-09T07:53:53Z) - Sampling from Energy-based Policies using Diffusion [18.135501150108894]
エネルギーベースのポリシーは、強化学習における複雑なマルチモーダルな振る舞いをモデル化するための柔軟なフレームワークを提供する。
既存の手法では、政策表現にガウスのような単純なパラメトリック分布を用いるのが一般的である。
エネルギーベースの政策から拡散に基づくアプローチを導入し、負のQ関数がエネルギー関数を定義する。
論文 参考訳(メタデータ) (2024-10-02T08:09:33Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。