論文の概要: Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.11917v2
- Date: Fri, 23 Apr 2021 18:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:05:51.037750
- Title: Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning
- Title(参考訳): スケーラブルなロボット強化学習の例を用いたバッチ探索
- Authors: Annie S. Chen, HyunJi Nam, Suraj Nair, Chelsea Finn
- Abstract要約: BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
- 参考スコア(独自算出の注目度): 63.552788688544254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from diverse offline datasets is a promising path towards learning
general purpose robotic agents. However, a core challenge in this paradigm lies
in collecting large amounts of meaningful data, while not depending on a human
in the loop for data collection. One way to address this challenge is through
task-agnostic exploration, where an agent attempts to explore without a
task-specific reward function, and collect data that can be useful for any
downstream task. While these approaches have shown some promise in simple
domains, they often struggle to explore the relevant regions of the state space
in more challenging settings, such as vision based robotic manipulation. This
challenge stems from an objective that encourages exploring everything in a
potentially vast state space. To mitigate this challenge, we propose to focus
exploration on the important parts of the state space using weak human
supervision. Concretely, we propose an exploration technique, Batch Exploration
with Examples (BEE), that explores relevant regions of the state-space, guided
by a modest number of human provided images of important states. These human
provided images only need to be collected once at the beginning of data
collection and can be collected in a matter of minutes, allowing us to scalably
collect diverse datasets, which can then be combined with any batch RL
algorithm. We find that BEE is able to tackle challenging vision-based
manipulation tasks both in simulation and on a real Franka robot, and observe
that compared to task-agnostic and weakly-supervised exploration techniques, it
(1) interacts more than twice as often with relevant objects, and (2) improves
downstream task performance when used in conjunction with offline RL.
- Abstract(参考訳): 多様なオフラインデータセットから学ぶことは、汎用ロボットエージェントを学ぶための有望な道である。
しかし、このパラダイムの中核的な課題は、大量の有意義なデータを収集することであり、データ収集のループ内の人間に依存しない。
この課題に対処する1つの方法は、タスクに依存しない探索であり、エージェントはタスク固有の報酬機能なしで探索し、ダウンストリームタスクに有用なデータを収集する。
これらのアプローチは単純なドメインでいくつかの約束を示しているが、視覚ベースのロボット操作など、より困難な環境で州空間の関連領域を探索するのに苦労することが多い。
この課題は、あらゆるものを潜在的に広大な状態空間で探索することを奨励する目的に由来する。
この課題を緩和するため,我々は,弱い人間の監督を用いて,国家空間の重要な部分の探索に焦点を合わせることを提案する。
具体的には,重要状態のごく少数の画像に導かれる状態空間の関連領域を探索する探索手法として,サンプルを用いたバッチ探索(bee)を提案する。
これらの人間が提供した画像は、データ収集の開始時に一度だけ収集する必要があり、数分で収集できるので、さまざまなデータセットを精査して、任意のバッチRLアルゴリズムと組み合わせることができます。
BEEは,シミュレーションと実のフランカロボットの両方において,課題に依存しない,弱教師付き探索技術と比較して,(1)関連オブジェクトと2倍以上の頻度で対話し,(2)オフラインRLと併用した場合のダウンストリームタスク性能を向上させることができる。
関連論文リスト
- Label-Efficient 3D Object Detection For Road-Side Units [10.663986706501188]
協調的知覚は、インテリジェント・ロードサイド・ユニット(RSU)との深部情報融合による自動運転車の知覚を高める
これらの手法は、特に注釈付きRSUデータを必要とするため、実際のデプロイメントにおいて大きなハードルを生んでいる。
教師なしオブジェクト発見に基づくRSUのためのラベル効率の高いオブジェクト検出手法を考案する。
論文 参考訳(メタデータ) (2024-04-09T12:29:16Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Transfer learning with generative models for object detection on limited datasets [1.4999444543328293]
海洋生物学などいくつかの分野では、各物体の周囲に有界箱を正しくラベル付けする必要がある。
本稿では,一般的なシナリオに有効な伝達学習フレームワークを提案する。
我々の研究結果は、さまざまな分野における機械学習アプリケーションのための、新しい生成AIベースのプロトコルの道を開くものである。
論文 参考訳(メタデータ) (2024-02-09T21:17:31Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection [4.534713782093219]
上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-01-08T03:53:50Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。