論文の概要: Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations
- arxiv url: http://arxiv.org/abs/2207.10050v1
- Date: Wed, 20 Jul 2022 17:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:50:15.698390
- Title: Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations
- Title(参考訳): 識別器重み付きオフライン模倣学習
- Authors: Haoran Xu, Xianyuan Zhan, Honglei Yin, Huiling Qin
- Abstract要約: エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
- 参考スコア(独自算出の注目度): 5.760034336327491
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the problem of offline Imitation Learning (IL) where an agent aims
to learn an optimal expert behavior policy without additional online
environment interactions. Instead, the agent is provided with a supplementary
offline dataset from suboptimal behaviors. Prior works that address this
problem either require that expert data occupies the majority proportion of the
offline dataset, or need to learn a reward function and perform offline
reinforcement learning (RL) afterwards. In this paper, we aim to address the
problem without additional steps of reward learning and offline RL training for
the case when demonstrations contain a large proportion of suboptimal data.
Built upon behavioral cloning (BC), we introduce an additional discriminator to
distinguish expert and non-expert data. We propose a cooperation framework to
boost the learning of both tasks, Based on this framework, we design a new IL
algorithm, where the outputs of discriminator serve as the weights of the BC
loss. Experimental results show that our proposed algorithm achieves higher
returns and faster training speed compared to baseline algorithms.
- Abstract(参考訳): エージェントがオンライン環境の相互作用を増やさずに最適な専門家行動方針を学ぶことを目的としたオフライン模倣学習(il)の問題について検討する。
その代わりに、エージェントは、最適以下の振る舞いから追加のオフラインデータセットを提供する。
この問題に対処する以前の作業では、専門家データがオフラインデータセットの大部分を占めるか、報酬関数を学習し、その後オフライン強化学習(RL)を実行する必要がある。
本稿では,実演が多量の副最適データを含む場合に,報酬学習とオフラインrlトレーニングの追加ステップを伴わずにこの問題に対処することを目的とする。
行動クローニング(BC)に基づいて,専門家と非専門家のデータを識別するための識別器を導入する。
本研究では,両タスクの学習を促進するための協調フレームワークを提案する。このフレームワークに基づき,判別器の出力をbc損失の重みとして用いる新しいilアルゴリズムを設計する。
実験結果から,提案アルゴリズムはベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現することが示された。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Efficient Online Learning with Offline Datasets for Infinite Horizon
MDPs: A Bayesian Approach [25.77911741149966]
学習エージェントが専門家が使用する行動ポリシーをモデル化すれば,累積的後悔を最小限に抑えることができることを示す。
次に,iPSRL アルゴリズムを効率的に近似する Informed RLSVI アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-17T19:01:08Z) - Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か?
Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。
このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-20T18:16:25Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Identifying Expert Behavior in Offline Training Datasets Improves
Behavioral Cloning of Robotic Manipulation Policies [15.383102120417407]
本稿では,NeurIPS 2022コンペティショントラックで特集されているReal Robot Challenge IIIのソリューションについて述べる。
これは、事前に収集されたオフラインデータから学習することで、巧妙なロボット操作タスクに対処することを目的としている。
論文 参考訳(メタデータ) (2023-01-30T15:55:02Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。