論文の概要: Efficient Self-Supervised Data Collection for Offline Robot Learning
- arxiv url: http://arxiv.org/abs/2105.04607v1
- Date: Mon, 10 May 2021 18:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:02:49.676911
- Title: Efficient Self-Supervised Data Collection for Offline Robot Learning
- Title(参考訳): オフラインロボット学習のための効率的な自己監視データ収集
- Authors: Shadi Endrawis, Gal Leibovich, Guy Jacob, Gal Novik and Aviv Tamar
- Abstract要約: ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
- 参考スコア(独自算出の注目度): 17.461103383630853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A practical approach to robot reinforcement learning is to first collect a
large batch of real or simulated robot interaction data, using some data
collection policy, and then learn from this data to perform various tasks,
using offline learning algorithms. Previous work focused on manually designing
the data collection policy, and on tasks where suitable policies can easily be
designed, such as random picking policies for collecting data about object
grasping. For more complex tasks, however, it may be difficult to find a data
collection policy that explores the environment effectively, and produces data
that is diverse enough for the downstream task. In this work, we propose that
data collection policies should actively explore the environment to collect
diverse data. In particular, we develop a simple-yet-effective goal-conditioned
reinforcement-learning method that actively focuses data collection on novel
observations, thereby collecting a diverse data-set. We evaluate our method on
simulated robot manipulation tasks with visual inputs and show that the
improved diversity of active data collection leads to significant improvements
in the downstream learning tasks.
- Abstract(参考訳): ロボット強化学習の実践的なアプローチは、まず、データ収集ポリシを使用して、実またはシミュレーションされたロボットインタラクションデータの大規模なバッチを収集し、次にオフライン学習アルゴリズムを使用して、このデータからさまざまなタスクを実行することである。
これまでの作業は、データ収集ポリシーを手動で設計することや、オブジェクトの把握に関するデータを収集するためのランダムな選択ポリシーなど、適切なポリシーを簡単に設計できるタスクに重点を置いていた。
しかし、より複雑なタスクでは、効果的に環境を探索し、下流タスクに十分な多様性のあるデータを生成するデータ収集ポリシーを見つけるのは難しいかもしれない。
本研究では,多様なデータ収集環境を積極的に探究し,データ収集ポリシーを提案する。
特に,新しいデータ収集に積極的に焦点を合わせ,多種多様なデータセットを収集する,目標条件付き強化学習手法を開発した。
視覚入力を用いたロボット操作タスクのシミュレーションについて評価し、アクティブデータ収集の多様性の向上が下流学習タスクの大幅な改善につながっていることを示す。
関連論文リスト
- FlowRetrieval: Flow-Guided Data Retrieval for Few-Shot Imitation Learning [28.523528119584526]
擬似学習は、与えられた下流タスクに対するポリシーを効率的に適応するために、少数のタスク固有のデモンストレーションにのみ依存する。
本稿では,従来のデータから目標タスクに類似した動作を抽出するために,光フロー表現を利用するFlowRetrievalを提案する。
その結果,FlowRetrievalは,シミュレーションや実世界のドメイン間で,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-29T23:48:08Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - Bridge Data: Boosting Generalization of Robotic Skills with Cross-Domain
Datasets [122.85598648289789]
マルチドメインとマルチタスクのデータセットが、新しい環境における新しいタスクの学習を改善する方法について検討する。
また、新しいドメイン内の少数のタスクのみのデータによって、ドメインギャップを埋めることができ、ロボットが他のドメインでしか見られなかったさまざまなタスクを実行できることもわかりました。
論文 参考訳(メタデータ) (2021-09-27T23:42:12Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。