論文の概要: Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation
- arxiv url: http://arxiv.org/abs/2011.06698v1
- Date: Fri, 13 Nov 2020 00:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:43:19.369652
- Title: Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation
- Title(参考訳): 中間レベル視覚表現によるロバストポリシ:操作とナビゲーションに関する実験的検討
- Authors: Bryan Chen, Alexander Sax, Gene Lewis, Iro Armeni, Silvio Savarese,
Amir Zamir, Jitendra Malik, Lerrel Pinto
- Abstract要約: エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
- 参考スコア(独自算出の注目度): 115.4071729927011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based robotics often separates the control loop into one module for
perception and a separate module for control. It is possible to train the whole
system end-to-end (e.g. with deep RL), but doing it "from scratch" comes with a
high sample complexity cost and the final result is often brittle, failing
unexpectedly if the test environment differs from that of training.
We study the effects of using mid-level visual representations (features
learned asynchronously for traditional computer vision objectives), as a
generic and easy-to-decode perceptual state in an end-to-end RL framework.
Mid-level representations encode invariances about the world, and we show that
they aid generalization, improve sample complexity, and lead to a higher final
performance. Compared to other approaches for incorporating invariances, such
as domain randomization, asynchronously trained mid-level representations scale
better: both to harder problems and to larger domain shifts. In practice, this
means that mid-level representations could be used to successfully train
policies for tasks where domain randomization and learning-from-scratch failed.
We report results on both manipulation and navigation tasks, and for navigation
include zero-shot sim-to-real experiments on real robots.
- Abstract(参考訳): ビジョンベースのロボティクスは、知覚のために制御ループを1つのモジュールと、制御のための別のモジュールに分離することが多い。
システム全体をエンドツーエンド(例えばdeep rl)でトレーニングすることは可能だが、"スクラッチから"実行すると、サンプルの複雑さが高くなり、最終的な結果は不安定になり、テスト環境がトレーニングと違う場合、予期せぬほど失敗する。
エンド・ツー・エンドのrlフレームワークにおいて,中間レベルの視覚的表現(従来のコンピュータビジョンの目的に対して非同期に学習された特徴)を汎用的かつ容易に理解可能な状態として利用する効果について検討する。
中間レベルの表現は世界の不変性をエンコードし、一般化を支援し、サンプル複雑性を改善し、最終的なパフォーマンスを高めることを示します。
ドメインのランダム化などの不変性を導入する他のアプローチと比較して、非同期に訓練された中間レベル表現は、より難しい問題とより大きなドメインシフトの両方に、より良くスケールする。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
実ロボットに対するゼロショットsim-to-real実験を含む操作とナビゲーションの両方の結果について報告する。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z) - Meta Adaptation using Importance Weighted Demonstrations [19.37671674146514]
エージェントが新しいタスクを推測することが困難である場合も少なくない。
本稿では,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。
環境タスクの多様性からロボットを訓練し、目に見えない環境に適応できる実験を行った。
論文 参考訳(メタデータ) (2019-11-23T07:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。