論文の概要: ARMOR: A Model-based Framework for Improving Arbitrary Baseline Policies
with Offline Data
- arxiv url: http://arxiv.org/abs/2211.04538v1
- Date: Tue, 8 Nov 2022 20:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:21:58.300928
- Title: ARMOR: A Model-based Framework for Improving Arbitrary Baseline Policies
with Offline Data
- Title(参考訳): ARMOR: オフラインデータによる任意ベースラインポリシーを改善するためのモデルベースのフレームワーク
- Authors: Tengyang Xie, Mohak Bhardwaj, Nan Jiang, Ching-An Cheng
- Abstract要約: 我々は,オフライン強化学習のための適応モデル(Adversarial Models for Offline Reinforcement Learning, ARMOR)と呼ばれる新しいモデルベースオフラインRLフレームワークを提案する。
ARMORは、データカバレッジに関係なく、任意のベースラインポリシーを改善するためのポリシーを強力に学習する。
- 参考スコア(独自算出の注目度): 27.007647483635516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new model-based offline RL framework, called Adversarial Models
for Offline Reinforcement Learning (ARMOR), which can robustly learn policies
to improve upon an arbitrary baseline policy regardless of data coverage. Based
on the concept of relative pessimism, ARMOR is designed to optimize for the
worst-case relative performance when facing uncertainty. In theory, we prove
that the learned policy of ARMOR never degrades the performance of the baseline
policy with any admissible hyperparameter, and can learn to compete with the
best policy within data coverage when the hyperparameter is well tuned, and the
baseline policy is supported by the data. Such a robust policy improvement
property makes ARMOR especially suitable for building real-world learning
systems, because in practice ensuring no performance degradation is imperative
before considering any benefit learning can bring.
- Abstract(参考訳): データカバレッジに関係なく、任意のベースラインポリシーを改善するために、ポリシーを堅牢に学習することのできる、Adversarial Models for Offline Reinforcement Learning (ARMOR)と呼ばれる新しいモデルベースのオフラインRLフレームワークを提案する。
相対悲観主義の概念に基づいて、ARMORは不確実性に直面した場合の最悪の相対性能を最適化するように設計されている。
理論的には、ARMORの学習ポリシは、任意の許容ハイパーパラメータでベースラインポリシーのパフォーマンスを劣化させることなく、ハイパーパラメータが適切に調整されたときにデータカバレッジ内で最高のポリシーと競合し、ベースラインポリシーがデータによって支持されることを示す。
このような堅牢なポリシー改善特性により、ARMORは実世界の学習システムを構築するのに特に適している。
関連論文リスト
- Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。
エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-10T14:00:21Z) - Adversarial Model for Offline Reinforcement Learning [39.77825908168264]
モデルに基づくオフライン強化学習フレームワークであるAdversarial Model for Offline Reinforcement Learning (ARMOR)を提案する。
ARMORは、データカバレッジに関係なく、任意の参照ポリシーを改善するためのポリシーをしっかりと学習することができる。
ARMORは、最先端のオフラインモデルフリーとモデルベースRLアルゴリズムの両方で有能な性能を実現する。
論文 参考訳(メタデータ) (2023-02-21T23:08:09Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning [11.183124892686239]
本稿では,モデルベースオフラインRLの新しいアプローチであるRobust Adversarial Model-Based Offline RL(RAMBO)を提案する。
保守性を達成するため、敵環境モデルに対して2プレイヤーゼロ和ゲームとして問題を定式化する。
我々は,オフラインRLベンチマークに対する我々のアプローチを評価し,我々のアプローチが技術性能の状態を達成できることを実証した。
論文 参考訳(メタデータ) (2022-04-26T20:42:14Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。