論文の概要: Concurrent Training Improves the Performance of Behavioral Cloning from
Observation
- arxiv url: http://arxiv.org/abs/2008.01205v1
- Date: Mon, 3 Aug 2020 21:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:15:50.075356
- Title: Concurrent Training Improves the Performance of Behavioral Cloning from
Observation
- Title(参考訳): 同時学習による観察による行動クローンの性能向上
- Authors: Zachary W. Robertson, Matthew R. Walter
- Abstract要約: デモから学ぶことは、ロボットが新しいスキルを身につけるための効率的な方法として広く利用されている。
観察から学ぶことは、ラベルのないデモ(例えばビデオ)を使って模倣学習を行う手段を提供する。
これに対する1つのアプローチは、観察からの行動クローニング(BCO)である。
本稿では,BCO の新たな理論的解析,修正 BCO* の導入,および半教師付き設定において,BCO* は逆ダイナミクスモデルとエキスパートポリシーの両方の見積もりを同時に改善可能であることを示す。
- 参考スコア(独自算出の注目度): 10.939683083130616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstration is widely used as an efficient way for robots to
acquire new skills. However, it typically requires that demonstrations provide
full access to the state and action sequences. In contrast, learning from
observation offers a way to utilize unlabeled demonstrations (e.g., video) to
perform imitation learning. One approach to this is behavioral cloning from
observation (BCO). The original implementation of BCO proceeds by first
learning an inverse dynamics model and then using that model to estimate action
labels, thereby reducing the problem to behavioral cloning. However, existing
approaches to BCO require a large number of initial interactions in the first
step. Here, we provide a novel theoretical analysis of BCO, introduce a
modification BCO*, and show that in the semi-supervised setting, BCO* can
concurrently improve both its estimate for the inverse dynamics model and the
expert policy. This result allows us to eliminate the dependence on initial
interactions and dramatically improve the sample complexity of BCO. We evaluate
the effectiveness of our algorithm through experiments on various benchmark
domains. The results demonstrate that concurrent training not only improves
over the performance of BCO but also results in performance that is competitive
with state-of-the-art imitation learning methods such as GAIL and Value-Dice.
- Abstract(参考訳): デモから学ぶことは、ロボットが新しいスキルを獲得するための効率的な方法として広く使われている。
しかし、通常、デモは状態とアクションシーケンスへの完全なアクセスを提供する必要がある。
対照的に、観察からの学習は、未ラベルのデモ(例えばビデオ)を利用して模倣学習を行う手段を提供する。
これに対する1つのアプローチは、観察からの行動クローニング(BCO)である。
もともとのBCOの実装は、まず逆ダイナミクスモデルを学び、次にそのモデルを使用してアクションラベルを推定することにより、振る舞いのクローンの問題を減らす。
しかしながら、既存のBCOへのアプローチは、最初のステップで多数の初期相互作用を必要とする。
本稿では,BCO の新たな理論的解析を行い,修正 BCO* を導入し,半教師付き設定において,BCO* が逆ダイナミクスモデルとエキスパートポリシーの両方の見積もりを同時に改善可能であることを示す。
この結果、初期相互作用への依存を取り除き、bcoのサンプル複雑さを劇的に改善することができる。
我々は,様々なベンチマーク領域の実験を通じて,アルゴリズムの有効性を評価する。
その結果,同時学習はBCOの性能を向上するだけでなく,GAILやValue-Diceといった最先端の模倣学習手法と競合する性能も向上することが示された。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Unbiased and Efficient Self-Supervised Incremental Contrastive Learning [31.763904668737304]
本稿では,新たなIncremental InfoNCE(NCE-II)損失関数からなる自己教師型Incremental Contrastive Learning(ICL)フレームワークを提案する。
ICLは最大16.7倍のトレーニングスピードアップと16.8倍の高速収束を実現している。
論文 参考訳(メタデータ) (2023-01-28T06:11:31Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - DBN-Mix: Training Dual Branch Network Using Bilateral Mixup Augmentation
for Long-Tailed Visual Recognition [7.94190631530826]
累積学習を必要とせず,DBNの性能を向上させるための簡易かつ効果的な手法を開発した。
提案したDBNアーキテクチャの多数派に対する偏りを緩和するクラス条件温度スケーリングを提案する。
論文 参考訳(メタデータ) (2022-07-05T17:01:27Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。