論文の概要: Theoretical Analysis of Offline Imitation With Supplementary Dataset
- arxiv url: http://arxiv.org/abs/2301.11687v1
- Date: Fri, 27 Jan 2023 12:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:46:47.115454
- Title: Theoretical Analysis of Offline Imitation With Supplementary Dataset
- Title(参考訳): 補足データセットを用いたオフライン模倣の理論解析
- Authors: Ziniu Li, Tian Xu, Yang Yu, Zhi-Quan Luo
- Abstract要約: 行動的クローニングは豊富な専門家データから優れたポリシーを回復することができるが、専門家データが不十分な場合には失敗する可能性がある。
本稿では,少数の専門家データに加えて,補足データセットが利用可能である状況について考察する。
補足的データセットによる模倣学習は、創発的な実践的枠組みであるが、その理論的基礎は未開発のままである。
- 参考スコア(独自算出の注目度): 24.70187647541753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioral cloning (BC) can recover a good policy from abundant expert data,
but may fail when expert data is insufficient. This paper considers a situation
where, besides the small amount of expert data, a supplementary dataset is
available, which can be collected cheaply from sub-optimal policies. Imitation
learning with a supplementary dataset is an emergent practical framework, but
its theoretical foundation remains under-developed. To advance understanding,
we first investigate a direct extension of BC, called NBCU, that learns from
the union of all available data. Our analysis shows that, although NBCU suffers
an imitation gap that is larger than BC in the worst case, there exist special
cases where NBCU performs better than or equally well as BC. This discovery
implies that noisy data can also be helpful if utilized elaborately. Therefore,
we further introduce a discriminator-based importance sampling technique to
re-weight the supplementary data, proposing the WBCU method. With our newly
developed landscape-based analysis, we prove that WBCU can outperform BC in
mild conditions. Empirical studies show that WBCU simultaneously achieves the
best performance on two challenging tasks where prior state-of-the-art methods
fail.
- Abstract(参考訳): 行動クローニング(bc)は、豊富な専門家データから良好なポリシーを回復するが、専門家データが不十分な場合には失敗する。
本稿では,少量のエキスパートデータに加えて,副最適化ポリシーから安価に収集可能な補足データセットが利用可能である状況について考察する。
補足的データセットによる模倣学習は、創発的な実践的枠組みであるが、その理論的基礎は未開発のままである。
理解を深めるために、まず、すべての利用可能なデータの結合から学習する NBCU と呼ばれる BC の直接拡張について調べる。
我々の分析によると、NBCUは、最悪の場合、BCよりも大きい模倣のギャップを被っているが、BCより優れているか、等しく優れている特別なケースが存在する。
この発見は、ノイズデータも精巧に利用すれば役に立つことを示唆している。
そこで我々はさらに,WBCU法を提唱し,補助データを再重み付けするための判別器に基づく重要サンプリング手法を提案する。
新たに開発されたランドスケープに基づく解析により,WBCUがBCより穏やかな条件で性能を向上できることが証明された。
実証研究により、WBCUは従来の最先端手法が失敗する2つの課題において、同時に最高の性能を達成していることが示された。
関連論文リスト
- Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Inducing Data Amplification Using Auxiliary Datasets in Adversarial
Training [7.513100214864646]
本稿では,プライマリデータセット上でのトレーニングデータ増幅を誘導するバイアス付きマルチドメイン逆トレーニング(BiaMAT)手法を提案する。
提案手法は, 補助データセットを活用することにより, 一次データセット上での対向性の向上を実現することができる。
論文 参考訳(メタデータ) (2022-09-27T09:21:40Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - When Should We Prefer Offline Reinforcement Learning Over Behavioral
Cloning? [86.43517734716606]
オフライン強化学習(RL)アルゴリズムは、オンラインインタラクションなしで、以前に収集した経験を生かして効果的なポリシーを得ることができる。
行動クローニング(BC)アルゴリズムは、教師付き学習を通じてデータセットのサブセットを模倣する。
十分にノイズの多い準最適データに基づいて訓練されたポリシーは、専門家データを持つBCアルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-04-12T08:25:34Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Principled Exploration via Optimistic Bootstrapping and Backward
Induction [84.78836146128238]
最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。
OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。
提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
論文 参考訳(メタデータ) (2021-05-13T01:15:44Z) - DeVLBert: Learning Deconfounded Visio-Linguistic Representations [111.93480424791613]
ドメイン外ビオ言語事前学習の問題点について検討する。
この問題の既存の方法は、純粋に確率ベースである。
介入に基づく学習を行うために,Decon-Linguistic Bertフレームワーク(略称:DeVLBert)を提案する。
論文 参考訳(メタデータ) (2020-08-16T11:09:22Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。