論文の概要: Active Perception and Representation for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2003.06734v1
- Date: Sun, 15 Mar 2020 01:43:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 08:47:51.717643
- Title: Active Perception and Representation for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための能動的知覚と表現
- Authors: Youssef Zaky, Gaurav Paruthi, Bryan Tripp, James Bergstra
- Abstract要約: 本稿では、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
我々のエージェントは、視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向のアクションを実行する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率がある。
- 参考スコア(独自算出の注目度): 0.8315801422499861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of visual animals actively control their eyes, heads,
and/or bodies to direct their gaze toward different parts of their environment.
In contrast, recent applications of reinforcement learning in robotic
manipulation employ cameras as passive sensors. These are carefully placed to
view a scene from a fixed pose. Active perception allows animals to gather the
most relevant information about the world and focus their computational
resources where needed. It also enables them to view objects from different
distances and viewpoints, providing a rich visual experience from which to
learn abstract representations of the environment. Inspired by the primate
visual-motor system, we present a framework that leverages the benefits of
active perception to accomplish manipulation tasks. Our agent uses viewpoint
changes to localize objects, to learn state representations in a
self-supervised manner, and to perform goal-directed actions. We apply our
model to a simulated grasping task with a 6-DoF action space. Compared to its
passive, fixed-camera counterpart, the active model achieves 8% better
performance in targeted grasping. Compared to vanilla deep Q-learning
algorithms, our model is at least four times more sample-efficient,
highlighting the benefits of both active perception and representation
learning.
- Abstract(参考訳): 視覚動物の大部分は、目、頭、または身体を積極的に制御し、環境の異なる部分に視線を向ける。
対照的に、ロボット操作における強化学習の最近の応用は、カメラを受動的センサーとして採用している。
これらは、固定されたポーズからシーンを見るために慎重に配置される。
能動的知覚により、動物は世界に関する最も関連性の高い情報を収集し、必要に応じて計算資源に集中することができる。
また、異なる距離や視点からオブジェクトを見ることができ、環境の抽象的な表現を学ぶための豊かな視覚体験を提供する。
霊長類視覚運動システムに触発されて、能動的知覚の利点を利用して操作タスクを遂行するフレームワークを提案する。
エージェントは視点変化を利用してオブジェクトをローカライズし、状態表現を自己監督的に学習し、ゴール指向アクションを実行する。
6自由度動作空間を有する模擬把持作業に本モデルを適用した。
パッシブな固定カメラと比較すると、アクティブモデルは目標の把握において8%パフォーマンスが向上する。
バニラ深度Q-ラーニングアルゴリズムと比較して、我々のモデルは少なくとも4倍のサンプリング効率を示し、アクティブな知覚と表現学習の両方の利点を強調している。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Masked Visual Pre-training for Motor Control [118.18189211080225]
実世界の画像からの自己教師付き視覚前訓練は、画素から運動制御タスクを学習するのに有効である。
私たちはビジュアルエンコーダを凍結し、強化学習でニューラルネットワークコントローラをトレーニングします。
これは、モーター制御のために現実の画像を大規模に活用した初めての自己教師型モデルである。
論文 参考訳(メタデータ) (2022-03-11T18:58:10Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。