論文の概要: Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation
- arxiv url: http://arxiv.org/abs/2011.06698v1
- Date: Fri, 13 Nov 2020 00:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:43:19.369652
- Title: Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation
- Title(参考訳): 中間レベル視覚表現によるロバストポリシ:操作とナビゲーションに関する実験的検討
- Authors: Bryan Chen, Alexander Sax, Gene Lewis, Iro Armeni, Silvio Savarese,
Amir Zamir, Jitendra Malik, Lerrel Pinto
- Abstract要約: エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
- 参考スコア(独自算出の注目度): 115.4071729927011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based robotics often separates the control loop into one module for
perception and a separate module for control. It is possible to train the whole
system end-to-end (e.g. with deep RL), but doing it "from scratch" comes with a
high sample complexity cost and the final result is often brittle, failing
unexpectedly if the test environment differs from that of training.
We study the effects of using mid-level visual representations (features
learned asynchronously for traditional computer vision objectives), as a
generic and easy-to-decode perceptual state in an end-to-end RL framework.
Mid-level representations encode invariances about the world, and we show that
they aid generalization, improve sample complexity, and lead to a higher final
performance. Compared to other approaches for incorporating invariances, such
as domain randomization, asynchronously trained mid-level representations scale
better: both to harder problems and to larger domain shifts. In practice, this
means that mid-level representations could be used to successfully train
policies for tasks where domain randomization and learning-from-scratch failed.
We report results on both manipulation and navigation tasks, and for navigation
include zero-shot sim-to-real experiments on real robots.
- Abstract(参考訳): ビジョンベースのロボティクスは、知覚のために制御ループを1つのモジュールと、制御のための別のモジュールに分離することが多い。
システム全体をエンドツーエンド(例えばdeep rl)でトレーニングすることは可能だが、"スクラッチから"実行すると、サンプルの複雑さが高くなり、最終的な結果は不安定になり、テスト環境がトレーニングと違う場合、予期せぬほど失敗する。
エンド・ツー・エンドのrlフレームワークにおいて,中間レベルの視覚的表現(従来のコンピュータビジョンの目的に対して非同期に学習された特徴)を汎用的かつ容易に理解可能な状態として利用する効果について検討する。
中間レベルの表現は世界の不変性をエンコードし、一般化を支援し、サンプル複雑性を改善し、最終的なパフォーマンスを高めることを示します。
ドメインのランダム化などの不変性を導入する他のアプローチと比較して、非同期に訓練された中間レベル表現は、より難しい問題とより大きなドメインシフトの両方に、より良くスケールする。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
実ロボットに対するゼロショットsim-to-real実験を含む操作とナビゲーションの両方の結果について報告する。
関連論文リスト
- DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。