論文の概要: Discriminator-Guided Model-Based Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2207.00244v2
- Date: Tue, 5 Jul 2022 03:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 11:41:45.254982
- Title: Discriminator-Guided Model-Based Offline Imitation Learning
- Title(参考訳): 判別子誘導モデルに基づくオフライン模倣学習
- Authors: Wenjia Zhang, Haoran Xu, Haoyi Niu, Peng Cheng, Ming Li, Heming Zhang,
Guyue Zhou, Xianyuan Zhan
- Abstract要約: オフライン模倣学習(英: offline mimicion learning, IL)は、報酬ラベルなしで専門家によるデモンストレーションから意思決定問題を解決する強力な手法である。
本稿では,モデルロールアウトデータの動的正当性と準最適性を同時に識別する識別器を導入する,識別器誘導型モデルベースオフライン学習(DMIL)フレームワークを提案する。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
- 参考スコア(独自算出の注目度): 11.856949845359853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline imitation learning (IL) is a powerful method to solve decision-making
problems from expert demonstrations without reward labels. Existing offline IL
methods suffer from severe performance degeneration under limited expert data
due to covariate shift. Including a learned dynamics model can potentially
improve the state-action space coverage of expert data, however, it also faces
challenging issues like model approximation/generalization errors and
suboptimality of rollout data. In this paper, we propose the
Discriminator-guided Model-based offline Imitation Learning (DMIL) framework,
which introduces a discriminator to simultaneously distinguish the dynamics
correctness and suboptimality of model rollout data against real expert
demonstrations. DMIL adopts a novel cooperative-yet-adversarial learning
strategy, which uses the discriminator to guide and couple the learning process
of the policy and dynamics model, resulting in improved model performance and
robustness. Our framework can also be extended to the case when demonstrations
contain a large proportion of suboptimal data. Experimental results show that
DMIL and its extension achieve superior performance and robustness compared to
state-of-the-art offline IL methods under small datasets.
- Abstract(参考訳): オフライン模倣学習(il)は、報酬ラベルなしで専門家のデモンストレーションから意思決定問題を解決する強力な方法である。
既存のオフラインILメソッドは、共変量シフトによる限られた専門家データの下での厳しい性能劣化に悩まされる。
学習されたダイナミックスモデルを含むと、専門家データの状態-作用空間カバレッジが向上する可能性があるが、モデル近似/一般化誤差やロールアウトデータの亜最適性といった問題にも直面する。
本稿では,モデルロールアウトデータのダイナミクスの正確性と下位最適化を同時に区別する判別器を導入する,モデルガイド型オフライン模倣学習(dmil)フレームワークを提案する。
DMILは,政策・力学モデルの学習過程を誘導・結合する識別器を用いて,モデル性能とロバスト性を向上させる新しい協調学習戦略を採用する。
我々のフレームワークは、デモに最適なデータが多く含まれている場合にも拡張できる。
実験結果から,DMILとその拡張は,小規模なデータセット下での最先端のオフラインIL法と比較して,優れた性能とロバスト性が得られることが示された。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Relation Modeling and Distillation for Learning with Noisy Labels [4.556974104115929]
本稿では,自己教師型学習を通して,サンプル間の関係をモデル化する関係モデリングと蒸留の枠組みを提案する。
提案手法は,ノイズの多いデータに対する識別表現を学習し,既存の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T01:47:27Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [18.50354748863624]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。