論文の概要: MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations
- arxiv url: http://arxiv.org/abs/2303.17156v1
- Date: Thu, 30 Mar 2023 05:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:26:59.667249
- Title: MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations
- Title(参考訳): MAHALO:観察からオフライン強化学習と模倣学習を統合する
- Authors: Anqi Li, Byron Boots, Ching-An Cheng
- Abstract要約: 我々は、観測からのオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
オフラインPLfOは、サブ標準品質のデータセットを使用してポリシーを学ぶことを目的としている。
我々は、観察から学ぶためのModality-Agnostic Adversarial hypothesis Adaptation for Learning from Observations (MAHALO)と呼ばれる一般的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 43.9636309593499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a new paradigm for sequential decision making, called offline Policy
Learning from Observation (PLfO). Offline PLfO aims to learn policies using
datasets with substandard qualities: 1) only a subset of trajectories is
labeled with rewards, 2) labeled trajectories may not contain actions, 3)
labeled trajectories may not be of high quality, and 4) the overall data may
not have full coverage. Such imperfection is common in real-world learning
scenarios, so offline PLfO encompasses many existing offline learning setups,
including offline imitation learning (IL), ILfO, and reinforcement learning
(RL). In this work, we present a generic approach, called Modality-agnostic
Adversarial Hypothesis Adaptation for Learning from Observations (MAHALO), for
offline PLfO. Built upon the pessimism concept in offline RL, MAHALO optimizes
the policy using a performance lower bound that accounts for uncertainty due to
the dataset's insufficient converge. We implement this idea by adversarially
training data-consistent critic and reward functions in policy optimization,
which forces the learned policy to be robust to the data deficiency. We show
that MAHALO consistently outperforms or matches specialized algorithms across a
variety of offline PLfO tasks in theory and experiments.
- Abstract(参考訳): 我々は、観察からオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
オフラインplfoは、準標準品質のデータセットを使ってポリシーを学ぶことを目指している。
1) トラジェクトリーのサブセットにのみ報酬が付与される。
2) ラベル付き軌道は,動作を含まない。
3)ラベル付き軌道は高品質でない場合がある。
4) 全体データには完全なカバレッジがない可能性がある。
このような不完全性は、現実世界の学習シナリオでよく見られるため、オフラインplfoは、オフライン模倣学習(il)、ilfo、強化学習(rl)など、既存の多くのオフライン学習設定を含んでいる。
本研究は, オフラインPLfOのための Modality-Agnostic Adversarial hypothesis Adaptation for Learning from Observations (MAHALO) という汎用的なアプローチを提案する。
オフラインRLの悲観的概念に基づいて構築されたMAHALOは、データセットの収束が不十分なため不確実性を考慮したパフォーマンスの低いバウンダリを使用してポリシーを最適化する。
我々は,政策最適化において,データ一貫性のある批判と報酬機能を積極的に訓練することにより,学習した方針がデータ不足に対して堅牢であるように強制することにより,この概念を実装した。
理論と実験において,MAHALOは様々なオフラインPLfOタスクにおいて,アルゴリズムの性能を一貫して上回るか,あるいは一致していることを示す。
関連論文リスト
- Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。