Fugu-MT 論文翻訳(概要): Robust Policies via Mid-Level Visual Representations: An Experimental Study in Manipulation and Navigation

論文の概要: Robust Policies via Mid-Level Visual Representations: An Experimental Study in Manipulation and Navigation

arxiv url: http://arxiv.org/abs/2011.06698v1
Date: Fri, 13 Nov 2020 00:16:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 23:43:19.369652
Title: Robust Policies via Mid-Level Visual Representations: An Experimental Study in Manipulation and Navigation
Title（参考訳）: 中間レベル視覚表現によるロバストポリシ:操作とナビゲーションに関する実験的検討
Authors: Bryan Chen, Alexander Sax, Gene Lewis, Iro Armeni, Silvio Savarese, Amir Zamir, Jitendra Malik, Lerrel Pinto
Abstract要約: エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
参考スコア（独自算出の注目度）: 115.4071729927011
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based robotics often separates the control loop into one module for perception and a separate module for control. It is possible to train the whole system end-to-end (e.g. with deep RL), but doing it "from scratch" comes with a high sample complexity cost and the final result is often brittle, failing unexpectedly if the test environment differs from that of training. We study the effects of using mid-level visual representations (features learned asynchronously for traditional computer vision objectives), as a generic and easy-to-decode perceptual state in an end-to-end RL framework. Mid-level representations encode invariances about the world, and we show that they aid generalization, improve sample complexity, and lead to a higher final performance. Compared to other approaches for incorporating invariances, such as domain randomization, asynchronously trained mid-level representations scale better: both to harder problems and to larger domain shifts. In practice, this means that mid-level representations could be used to successfully train policies for tasks where domain randomization and learning-from-scratch failed. We report results on both manipulation and navigation tasks, and for navigation include zero-shot sim-to-real experiments on real robots.
Abstract（参考訳）: ビジョンベースのロボティクスは、知覚のために制御ループを1つのモジュールと、制御のための別のモジュールに分離することが多い。システム全体をエンドツーエンド(例えばdeep rl)でトレーニングすることは可能だが、"スクラッチから"実行すると、サンプルの複雑さが高くなり、最終的な結果は不安定になり、テスト環境がトレーニングと違う場合、予期せぬほど失敗する。エンド・ツー・エンドのrlフレームワークにおいて,中間レベルの視覚的表現(従来のコンピュータビジョンの目的に対して非同期に学習された特徴)を汎用的かつ容易に理解可能な状態として利用する効果について検討する。中間レベルの表現は世界の不変性をエンコードし、一般化を支援し、サンプル複雑性を改善し、最終的なパフォーマンスを高めることを示します。ドメインのランダム化などの不変性を導入する他のアプローチと比較して、非同期に訓練された中間レベル表現は、より難しい問題とより大きなドメインシフトの両方に、より良くスケールする。実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。実ロボットに対するゼロショットsim-to-real実験を含む操作とナビゲーションの両方の結果について報告する。

関連論文リスト

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [14.511049253735834]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。私たちのソリューションはDexGraspVLAです。これは、事前訓練されたビジョンランゲージモデルをハイレベルタスクプランナとして利用する階層的なフレームワークです。本手法は, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
論文参考訳（メタデータ） (2025-02-28T09:57:20Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文参考訳（メタデータ） (2024-09-26T23:07:01Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Invariance is Key to Generalization: Examining the Role of Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。このような視覚ナビゲーションの表現を実験的に研究する。我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文参考訳（メタデータ） (2023-10-23T15:15:19Z)
Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文参考訳（メタデータ） (2021-08-06T22:19:09Z)
From Simulation to Real World Maneuver Execution using Deep Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文参考訳（メタデータ） (2020-05-13T14:22:20Z)
Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文参考訳（メタデータ） (2020-03-30T16:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。