Fugu-MT 論文翻訳(概要): Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model

論文の概要: Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model

arxiv url: http://arxiv.org/abs/2406.09976v1
Date: Fri, 14 Jun 2024 12:37:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 13:45:23.989527
Title: Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model
Title（参考訳）: 逆補助モデルを用いたロバストモデルに基づく強化学習
Authors: Siemen Herremans, Ali Anwar, Siegfried Mercelis,
Abstract要約: 特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
参考スコア（独自算出の注目度）: 2.9109581496560044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning has demonstrated impressive performance in various challenging problems such as robotics, board games, and classical arcade games. However, its real-world applications can be hindered by the absence of robustness and safety in the learned policies. More specifically, an RL agent that trains in a certain Markov decision process (MDP) often struggles to perform well in nearly identical MDPs. To address this issue, we employ the framework of Robust MDPs (RMDPs) in a model-based setting and introduce a novel learned transition model. Our method specifically incorporates an auxiliary pessimistic model, updated adversarially, to estimate the worst-case MDP within a Kullback-Leibler uncertainty set. In comparison to several existing works, our work does not impose any additional conditions on the training environment, such as the need for a parametric simulator. To test the effectiveness of the proposed pessimistic model in enhancing policy robustness, we integrate it into a practical RL algorithm, called Robust Model-Based Policy Optimization (RMBPO). Our experimental results indicate a notable improvement in policy robustness on high-dimensional MuJoCo control tasks, with the auxiliary model enhancing the performance of the learned policy in distorted MDPs. We further explore the learned deviation between the proposed auxiliary world model and the nominal model, to examine how pessimism is achieved. By learning a pessimistic world model and demonstrating its role in improving policy robustness, our research contributes towards making (model-based) RL more robust.
Abstract（参考訳）: 強化学習は、ロボティクス、ボードゲーム、古典的なアーケードゲームといった様々な課題において、印象的なパフォーマンスを示している。しかし、その現実世界の応用は、学習したポリシーにおける堅牢性と安全性の欠如によって妨げられる可能性がある。より具体的には、あるマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのに苦労することが多い。この問題に対処するために、モデルベースの設定でロバストMDP(RMDP)のフレームワークを使用し、新しい学習遷移モデルを導入する。提案手法は,Kulback-Leiblerの不確実性集合内の最悪のMPPを推定するために,逆向きに更新された補助悲観的モデルを含む。いくつかの既存の研究と比較して、パラメトリックシミュレータの必要性など、トレーニング環境に追加の条件を課していない。政策ロバスト性を高めるための悲観的モデルの有効性を検証するため,ロバストモデルベースポリシー最適化 (RMBPO) と呼ばれる実用的なRLアルゴリズムに統合した。実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な向上が示唆された。提案する補助世界モデルと名目モデルとの学習的偏差をさらに探求し,悲観主義の達成方法を検討する。悲観的な世界モデルを学び、政策の堅牢性向上におけるその役割を示すことによって、我々の研究は(モデルに基づく)RLをより堅牢にすることに貢献します。

関連論文リスト

Efficient Solution and Learning of Robust Factored MDPs [57.2416302384766]
未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
論文参考訳（メタデータ） (2025-08-01T15:23:15Z)
Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。政策とともに世界モデルを動的に適用する枠組みを提案する。我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文参考訳（メタデータ） (2025-05-19T20:14:33Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文参考訳（メタデータ） (2025-03-03T04:51:40Z)
Safe Deep Model-Based Reinforcement Learning with Lyapunov Functions [2.50194939587674]
本稿では,未知のダイナミクスを用いた効率的なポリシー学習を実現するためのモデルベースRLフレームワークを提案する。本稿では,モデルベースRLのトレーニングおよび政策学習における安全性制約を付加する新しい手法を紹介し,検討する。
論文参考訳（メタデータ） (2024-05-25T11:21:12Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Online Policy Optimization for Robust MDP [17.995448897675068]
強化学習(Reinforcement Learning, RL)は、ビデオゲームやGoなど多くの合成環境において、人間のパフォーマンスを上回っている。本研究では、未知の名義システムと対話することで、オンラインロバストなマルコフ決定プロセス(MDP)を検討する。提案手法は,確率的に効率的であるロバストな楽観的ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-28T05:18:20Z)
Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。 VaGraMは価値認識モデル学習の新しい手法である。
論文参考訳（メタデータ） (2022-04-04T13:28:31Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。