論文の概要: Minimax Model Learning
- arxiv url: http://arxiv.org/abs/2103.02084v1
- Date: Tue, 2 Mar 2021 23:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 12:15:55.797817
- Title: Minimax Model Learning
- Title(参考訳): ミニマックスモデル学習
- Authors: Cameron Voloshin, Nan Jiang, Yisong Yue
- Abstract要約: モデルに基づく強化学習における遷移モデル学習のための新しいオフポリシ損失関数を提案する。
私たちの損失は、分配シフトの修正に重点を置いたオフポリシ政策評価目標に由来します。
- 参考スコア(独自算出の注目度): 42.65032356835701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel off-policy loss function for learning a transition model
in model-based reinforcement learning. Notably, our loss is derived from the
off-policy policy evaluation objective with an emphasis on correcting
distribution shift. Compared to previous model-based techniques, our approach
allows for greater robustness under model misspecification or distribution
shift induced by learning/evaluating policies that are distinct from the
data-generating policy. We provide a theoretical analysis and show empirical
improvements over existing model-based off-policy evaluation methods. We
provide further analysis showing our loss can be used for off-policy
optimization (OPO) and demonstrate its integration with more recent
improvements in OPO.
- Abstract(参考訳): モデルに基づく強化学習における遷移モデル学習のための新しいオフポリシ損失関数を提案する。
特に、私たちの損失は、分配シフトの修正に重点を置いて、オフポリシ政策評価目標に由来します。
従来のモデルベース技術に比べ、データ生成ポリシーと異なる学習・評価ポリシーにより、モデル誤認や分布シフトによるロバスト性の向上が図れます。
理論解析を行い、既存のモデルに基づくオフポリシ評価手法よりも実証的な改善を示す。
損失がオフポリシ最適化(OPO)に使用できることを示すさらなる分析を提供し、OPOのより最近の改善との統合を実証します。
関連論文リスト
- SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。
本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。
シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。