論文の概要: Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow
- arxiv url: http://arxiv.org/abs/2405.13629v2
- Date: Sat, 26 Oct 2024 19:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:13:29.366907
- Title: Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow
- Title(参考訳): エネルギーベース正規化フローによる最大エントロピー強化学習
- Authors: Chen-Hao Chao, Chien Feng, Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee,
- Abstract要約: エネルギーベース正規化フロー(EBFlow)を用いた新しいMaxEnt RLフレームワークを提案する。
このフレームワークは、政策評価ステップと政策改善ステップを統合し、単一の目標トレーニングプロセスをもたらす。
提案手法は,広く採用されている代表ベースラインよりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 14.681645502417215
- License:
- Abstract: Existing Maximum-Entropy (MaxEnt) Reinforcement Learning (RL) methods for continuous action spaces are typically formulated based on actor-critic frameworks and optimized through alternating steps of policy evaluation and policy improvement. In the policy evaluation steps, the critic is updated to capture the soft Q-function. In the policy improvement steps, the actor is adjusted in accordance with the updated soft Q-function. In this paper, we introduce a new MaxEnt RL framework modeled using Energy-Based Normalizing Flows (EBFlow). This framework integrates the policy evaluation steps and the policy improvement steps, resulting in a single objective training process. Our method enables the calculation of the soft value function used in the policy evaluation target without Monte Carlo approximation. Moreover, this design supports the modeling of multi-modal action distributions while facilitating efficient action sampling. To evaluate the performance of our method, we conducted experiments on the MuJoCo benchmark suite and a number of high-dimensional robotic tasks simulated by Omniverse Isaac Gym. The evaluation results demonstrate that our method achieves superior performance compared to widely-adopted representative baselines.
- Abstract(参考訳): 既存の最大エントロピー(MaxEnt)強化学習(RL)手法は、アクター・クリティカルなフレームワークに基づいて定式化され、政策評価と政策改善の交互ステップによって最適化される。
政策評価ステップでは、批判者がソフトQ関数をキャプチャするために更新される。
ポリシー改善ステップでは、更新されたソフトQ機能に応じてアクターを調整する。
本稿では,エネルギーベース正規化フロー(EBFlow)をモデルとした新しいMaxEnt RLフレームワークを提案する。
このフレームワークは、政策評価ステップと政策改善ステップを統合し、単一の目標トレーニングプロセスをもたらす。
本手法はモンテカルロ近似を使わずに政策評価対象に使用するソフト値関数の計算を可能にする。
さらに、この設計は、効率的なアクションサンプリングを容易にしながら、マルチモーダルなアクション分布のモデリングをサポートする。
提案手法の性能を評価するため,Omniverse Isaac GymによりシミュレーションされたMuJoCoベンチマークスイートと多数の高次元ロボットタスクの実験を行った。
評価結果から,提案手法は広く採用されている代表ベースラインに比べて優れた性能を示すことが示された。
関連論文リスト
- Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - MoMA: Model-based Mirror Ascent for Offline Reinforcement Learning [5.399953810215838]
オフラインデータの部分的カバレッジ下での一般関数近似を用いたモデルベースミラー昇華アルゴリズムであるMoMAを開発した。
MoMAは、制限のない政策クラスを採用することで、既存の文学と差別化している。
MoMAの有効性は数値的な研究によって実証されている。
論文 参考訳(メタデータ) (2024-01-21T03:11:50Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Value Summation: A Novel Scoring Function for MPC-based Model-based
Reinforcement Learning [4.473327661758546]
本稿では,MPCを用いた強化学習手法の計画モジュールのための新しいスコアリング機能を提案する。
提案手法は,値の割引和を用いた既存のMPCベースのMBRL手法の学習効率を向上させる。
提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-16T20:52:39Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。