論文の概要: MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations
- arxiv url: http://arxiv.org/abs/2303.17156v2
- Date: Sun, 6 Aug 2023 18:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-08 23:29:44.263024
- Title: MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning
from Observations
- Title(参考訳): MAHALO:観察からオフライン強化学習と模倣学習を統合する
- Authors: Anqi Li, Byron Boots, Ching-An Cheng
- Abstract要約: 我々は、観測からオフライン政策学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
我々は、$textbfM$odality-agnostic $textbfA$dversarial $textbfH$ypothesis $textbfA$daptation for $textbfL$earning from $textbfO$bservation (MAHALO)と呼ばれるオフラインPLfOに対する一般的なアプローチを提示します。
- 参考スコア(独自算出の注目度): 43.9636309593499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a new paradigm for sequential decision making, called offline policy
learning from observations (PLfO). Offline PLfO aims to learn policies using
datasets with substandard qualities: 1) only a subset of trajectories is
labeled with rewards, 2) labeled trajectories may not contain actions, 3)
labeled trajectories may not be of high quality, and 4) the data may not have
full coverage. Such imperfection is common in real-world learning scenarios,
and offline PLfO encompasses many existing offline learning setups, including
offline imitation learning (IL), offline IL from observations (ILfO), and
offline reinforcement learning (RL). In this work, we present a generic
approach to offline PLfO, called $\textbf{M}$odality-agnostic
$\textbf{A}$dversarial $\textbf{H}$ypothesis $\textbf{A}$daptation for
$\textbf{L}$earning from $\textbf{O}$bservations (MAHALO). Built upon the
pessimism concept in offline RL, MAHALO optimizes the policy using a
performance lower bound that accounts for uncertainty due to the dataset's
insufficient coverage. We implement this idea by adversarially training
data-consistent critic and reward functions, which forces the learned policy to
be robust to data deficiency. We show that MAHALO consistently outperforms or
matches specialized algorithms across a variety of offline PLfO tasks in theory
and experiments. Our code is available at https://github.com/AnqiLi/mahalo.
- Abstract(参考訳): 我々は、観測からオフラインポリシー学習(PLfO)と呼ばれる、シーケンシャルな意思決定のための新しいパラダイムについて研究する。
オフラインplfoは、準標準品質のデータセットを使ってポリシーを学ぶことを目指している。
1) トラジェクトリーのサブセットにのみ報酬が付与される。
2) ラベル付き軌道は,動作を含まない。
3)ラベル付き軌道は高品質でない場合がある。
4) データが完全なカバレッジを持っていない場合。
オフラインplfoには、オフライン模倣学習(il)、観察からのオフラインil(ilfo)、オフライン強化学習(rl)など、既存の多くのオフライン学習設定が含まれている。
本稿では、オフラインPLfOに対する一般的なアプローチとして、$\textbf{M}$odality-agnostic $\textbf{A}$dversarial $\textbf{H}$ypothesis $\textbf{A}$daptation for $\textbf{L}$earning from $\textbf{O}$bservation (MAHALO)を提案する。
オフラインrlの悲観主義の概念に基づいて構築されたmahaloは、データセットのカバレッジ不足による不確実性を考慮したパフォーマンスローダバウンダを使用して、ポリシーを最適化する。
我々は、データ一貫性のある批評家と報酬関数を敵対的に訓練することで、この考え方を実装し、学習したポリシーをデータ不足に対して堅牢にすることを強いられる。
理論と実験において,MAHALOは様々なオフラインPLfOタスクにおいて,アルゴリズムの性能を一貫して上回るか,あるいは一致していることを示す。
私たちのコードはhttps://github.com/anqili/mahaloで利用可能です。
関連論文リスト
- Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。