論文の概要: Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2604.00977v1
- Date: Wed, 01 Apr 2026 14:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.039938
- Title: Flow-based Policy With Distributional Reinforcement Learning in Trajectory Optimization
- Title(参考訳): 軌道最適化における分散強化学習を用いたフローベース政策
- Authors: Ruijie Hao, Longfei Zhang, Yang Dai, Yang Ma, Xingxing Liang, Guangquan Cheng,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、複雑な制御や意思決定タスクに対処する上で非常に効果的であることが証明されている。
分散RL(FP-DRL)を用いたフローベースポリシというRLアルゴリズムを提案する。
このアルゴリズムは、計算効率と複雑な分布に適合する能力の両方を提供するフローマッチングを用いてポリシーをモデル化する。
分散RLアプローチを用いてリターン分布全体をモデル化し、最適化することにより、マルチモーダルポリシー更新をより効果的に導出し、エージェント性能を向上させる。
- 参考スコア(独自算出の注目度): 8.371088557371236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has proven highly effective in addressing complex control and decision-making tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution, which constrains the policy from capturing multimodal distributions, making it difficult to cover the full range of optimal solutions in multi-solution problems, and the return is reduced to a mean value, losing its multimodal nature and thus providing insufficient guidance for policy updates. In response to these problems, we propose a RL algorithm termed flow-based policy with distributional RL (FP-DRL). This algorithm models the policy using flow matching, which offers both computational efficiency and the capacity to fit complex distributions. Additionally, it employs a distributional RL approach to model and optimize the entire return distribution, thereby more effectively guiding multimodal policy updates and improving agent performance. Experimental trails on MuJoCo benchmarks demonstrate that the FP-DRL algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting superior representation capability of the flow policy.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な制御や意思決定タスクに対処する上で非常に効果的であることが証明されている。
しかし、ほとんどの従来のRLアルゴリズムでは、ポリシーは対角的なガウス分布としてパラメータ化され、マルチモーダル分布の取得を制限し、マルチモーダル分布における最適解の全範囲をカバーすることは困難であり、リターンは平均値に還元され、マルチモーダルの性質が失われ、ポリシー更新のための十分なガイダンスが提供されない。
これらの問題に対応するために,分布RL(FP-DRL)を用いたフローベースポリシーと呼ばれるRLアルゴリズムを提案する。
このアルゴリズムは、計算効率と複雑な分布に適合する能力の両方を提供するフローマッチングを用いてポリシーをモデル化する。
さらに、リターン分布全体をモデル化し最適化するために分散RLアプローチを採用し、マルチモーダルポリシー更新をより効果的に誘導し、エージェント性能を向上させる。
MuJoCo のベンチマーク実験では,FP-DRL アルゴリズムはフローポリシの優れた表現能力を示しながら,ほとんどの MuJoCo 制御タスクにおいて最先端 (SOTA) 性能を実現することが示されている。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Distributional Soft Actor-Critic with Diffusion Policy [12.762838783617658]
本稿では,DSAC-D (Distributed Soft Actor Critic with Policy Diffusion) と呼ばれる分散強化学習アルゴリズムを提案する。
提案アルゴリズムは,9つの制御タスクすべてにおいて最先端(SOTA)性能を達成し,推定バイアスの大幅な抑制と,従来の主流アルゴリズムと比較して10%以上の平均戻り値の改善を実現している。
論文 参考訳(メタデータ) (2025-07-02T05:50:10Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。