論文の概要: How to Leverage Diverse Demonstrations in Offline Imitation Learning
- arxiv url: http://arxiv.org/abs/2405.17476v2
- Date: Wed, 29 May 2024 01:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 11:23:10.962467
- Title: How to Leverage Diverse Demonstrations in Offline Imitation Learning
- Title(参考訳): オフライン模倣学習における多変量記述の活用法
- Authors: Sheng Yue, Jiani Liu, Xingyuan Hua, Ju Ren, Sen Lin, Junshan Zhang, Yaoxue Zhang,
- Abstract要約: 不完全な実演を伴うオフライン模倣学習(IL)は、専門家データの不足により注目を集めている。
本稿では, 結果の状態に基づいて正の挙動を識別する, 単純で効果的なデータ選択手法を提案する。
次に、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
- 参考スコア(独自算出の注目度): 39.24627312800116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Imitation Learning (IL) with imperfect demonstrations has garnered increasing attention owing to the scarcity of expert data in many real-world domains. A fundamental problem in this scenario is how to extract positive behaviors from noisy data. In general, current approaches to the problem select data building on state-action similarity to given expert demonstrations, neglecting precious information in (potentially abundant) $\textit{diverse}$ state-actions that deviate from expert ones. In this paper, we introduce a simple yet effective data selection method that identifies positive behaviors based on their resultant states -- a more informative criterion enabling explicit utilization of dynamics information and effective extraction of both expert and beneficial diverse behaviors. Further, we devise a lightweight behavior cloning algorithm capable of leveraging the expert and selected data correctly. In the experiments, we evaluate our method on a suite of complex and high-dimensional offline IL benchmarks, including continuous-control and vision-based tasks. The results demonstrate that our method achieves state-of-the-art performance, outperforming existing methods on $\textbf{20/21}$ benchmarks, typically by $\textbf{2-5x}$, while maintaining a comparable runtime to Behavior Cloning ($\texttt{BC}$).
- Abstract(参考訳): 不完全な実演を伴うオフライン模倣学習(IL)は、多くの現実世界のドメインで専門家データが不足しているため、注目を集めている。
このシナリオの根本的な問題は、ノイズの多いデータからポジティブな振る舞いを抽出する方法である。
一般に、この問題に対する現在のアプローチは、与えられた専門家のデモンストレーションとの状態-アクションの類似性に基づくデータ構築を選択し、(潜在的に豊富な)$\textit{diverse}$状態-アクションの貴重な情報を無視する。
本稿では,結果の状態に基づいて肯定的な振る舞いを識別する,単純で効果的なデータ選択手法を提案する。
さらに、専門家と選択したデータを正しく活用できる軽量な行動クローニングアルゴリズムを考案する。
実験では,連続制御や視覚に基づくタスクを含む,複雑で高次元のオフラインILベンチマークを用いて,本手法の評価を行った。
以上の結果から,本手法は現在の性能を$\textbf{20/21}$ベンチマークで上回り,通常$\textbf{2-5x}$と同等のランタイムを維持しつつ,振る舞いのクローン($\texttt{BC}$)と同等の性能を維持していることがわかった。
関連論文リスト
- A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文 参考訳(メタデータ) (2023-01-27T14:17:45Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Mitigating Covariate Shift in Imitation Learning via Offline Data
Without Great Coverage [27.122391441921664]
本稿では、エージェントがオンライン環境の相互作用を伴わずに専門家の実証者を模倣することを学習するオフラインImitation Learning(IL)について研究する。
その代わり、学習者は、潜在的に未熟な行動ポリシーから状態-動作-次の状態遷移の静的なオフラインデータセットを提示される。
オフラインデータ(MILO)からモデルベースのILを導入し,理論上も現実的にも,オフラインのIL問題を効率的に解決する。
論文 参考訳(メタデータ) (2021-06-06T18:31:08Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。