論文の概要: Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets
- arxiv url: http://arxiv.org/abs/2304.08742v2
- Date: Sat, 13 May 2023 00:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 21:03:16.131340
- Title: Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets
- Title(参考訳): 行動検索:ラベルなしデータセットのクエリによるマイテーション学習
- Authors: Maximilian Du, Suraj Nair, Dorsa Sadigh, Chelsea Finn
- Abstract要約: オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
- 参考スコア(独自算出の注目度): 73.2096288987301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling robots to learn novel visuomotor skills in a data-efficient manner
remains an unsolved problem with myriad challenges. A popular paradigm for
tackling this problem is through leveraging large unlabeled datasets that have
many behaviors in them and then adapting a policy to a specific task using a
small amount of task-specific human supervision (i.e. interventions or
demonstrations). However, how best to leverage the narrow task-specific
supervision and balance it with offline data remains an open question. Our key
insight in this work is that task-specific data not only provides new data for
an agent to train on but can also inform the type of prior data the agent
should use for learning. Concretely, we propose a simple approach that uses a
small amount of downstream expert data to selectively query relevant behaviors
from an offline, unlabeled dataset (including many sub-optimal behaviors). The
agent is then jointly trained on the expert and queried data. We observe that
our method learns to query only the relevant transitions to the task, filtering
out sub-optimal or task-irrelevant data. By doing so, it is able to learn more
effectively from the mix of task-specific and offline data compared to naively
mixing the data or only using the task-specific data. Furthermore, we find that
our simple querying approach outperforms more complex goal-conditioned methods
by 20% across simulated and real robotic manipulation tasks from images. See
https://sites.google.com/view/behaviorretrieval for videos and code.
- Abstract(参考訳): データ効率のよい方法で新しい視覚運動のスキルを習得するロボットの開発は、無数の課題に対して未解決の問題である。
この問題に対処するための一般的なパラダイムは、多くの振る舞いを持つ大きなラベルのないデータセットを活用して、少数のタスク固有の人的監督(例えば介入やデモンストレーション)を使用して特定のタスクにポリシーを適用することである。
しかし、タスク固有の監督を狭くし、オフラインデータとバランスをとるのがいかに最適かは、未解決の問題である。
この研究における私たちの重要な洞察は、タスク固有のデータはエージェントがトレーニングする新しいデータを提供するだけでなく、エージェントが学習に使用するべき事前データの種類を知らせることもできます。
具体的には、少量のダウンストリーム専門家データを使用して、オフラインでラベルなしのデータセット(多くのサブ最適動作を含む)から関連する振る舞いを選択的にクエリするシンプルなアプローチを提案する。
エージェントは専門家とクエリーデータで共同で訓練される。
提案手法はタスクへの関連する遷移のみをクエリし、サブ最適またはタスク不要なデータをフィルタリングすることを学習する。
これにより、タスク固有のデータとオフラインのデータの混合からより効果的に学習することができる。
さらに,画像からロボット操作タスクをシミュレートすることで,より複雑な目標条件付け手法を20%向上させることができた。
ビデオやコードについてはhttps://sites.google.com/view/behaviorretrievalを参照。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文 参考訳(メタデータ) (2022-09-09T03:02:49Z) - Using Self-Supervised Pretext Tasks for Active Learning [7.214674613451605]
本稿では,自己教師付きプレテキストタスクとユニークなデータサンプリング機能を利用して,困難かつ代表的なデータを選択する,新しいアクティブラーニング手法を提案する。
プレテキストタスク学習者は、未ラベルのセットでトレーニングされ、未ラベルのデータは、そのプレテキストタスクの損失によって、バッチにソートされ、グループ化される。
各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチで最も不確実なデータをサンプリングする。
論文 参考訳(メタデータ) (2022-01-19T07:58:06Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z) - Meta-learning for mixed linear regression [44.27602704497616]
現代の教師付き学習では、多数のタスクがあるが、それらの多くは少数のラベル付きデータにのみ関連付けられている。
小データの豊富なタスクは、ビッグデータのタスク不足を補うことができるだろうか?
我々は,$tildeOmega(k3/2)$ミディアムデータタスクと$tildeOmega(k1/2)$の例を使って,小さなデータタスクを効率的に利用できることを示す。
論文 参考訳(メタデータ) (2020-02-20T18:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。