論文の概要: Vision-Based Manipulators Need to Also See from Their Hands
- arxiv url: http://arxiv.org/abs/2203.12677v1
- Date: Tue, 15 Mar 2022 18:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 08:50:11.080421
- Title: Vision-Based Manipulators Need to Also See from Their Hands
- Title(参考訳): 視覚ベースのマニピュレータは手から見る必要がある
- Authors: Kyle Hsu, Moo Jin Kim, Rafael Rafailov, Jiajun Wu, Chelsea Finn
- Abstract要約: 本研究では,視覚的視点の選択が,生のセンサ観測から身体操作の文脈における学習と一般化にどう影響するかを検討する。
手中心(目の)視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化を一貫して改善する。
- 参考スコア(独自算出の注目度): 58.398637422321976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how the choice of visual perspective affects learning and
generalization in the context of physical manipulation from raw sensor
observations. Compared with the more commonly used global third-person
perspective, a hand-centric (eye-in-hand) perspective affords reduced
observability, but we find that it consistently improves training efficiency
and out-of-distribution generalization. These benefits hold across a variety of
learning algorithms, experimental settings, and distribution shifts, and for
both simulated and real robot apparatuses. However, this is only the case when
hand-centric observability is sufficient; otherwise, including a third-person
perspective is necessary for learning, but also harms out-of-distribution
generalization. To mitigate this, we propose to regularize the third-person
information stream via a variational information bottleneck. On six
representative manipulation tasks with varying hand-centric observability
adapted from the Meta-World benchmark, this results in a state-of-the-art
reinforcement learning agent operating from both perspectives improving its
out-of-distribution generalization on every task. While some practitioners have
long put cameras in the hands of robots, our work systematically analyzes the
benefits of doing so and provides simple and broadly applicable insights for
improving end-to-end learned vision-based robotic manipulation.
- Abstract(参考訳): 本研究では,視覚的視点の選択が学習と一般化にどのように影響するかを検討する。
一般的に使用されるグローバルな第三者の視点と比較すると、手中心の視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化は一貫して改善する。
これらの利点は、様々な学習アルゴリズム、実験的な設定、分散シフト、そしてシミュレーションと実際のロボット機器の両方に対して保持される。
しかし、これは手中心の可観測性が十分である場合のみであり、それ以外の場合、学習には第三者の視点を含める必要がある。
これを軽減するために、変動情報ボトルネックによる第三者情報ストリームの正規化を提案する。
メタワールドベンチマークから適応したハンドセントリックな可観測性を持つ6つの代表的な操作タスクでは、各タスクに対する分散の一般化を改善することにより、両方の観点で動作する最先端の強化学習エージェントが実現される。
ロボットの手にカメラを装着する実践者もいますが、私たちの研究は、そのメリットを体系的に分析し、エンドツーエンドの視覚ベースのロボット操作を改善するための、シンプルで広く適用可能な洞察を提供します。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Towards Unsupervised Representation Learning: Learning, Evaluating and
Transferring Visual Representations [1.8130068086063336]
我々は3つの視点から教師なし(視覚的)表現学習の分野に貢献する。
我々は、教師なし、バックプロパゲーションのない畳み込み自己組織型ニューラルネットワーク(CSNN)を設計する。
我々は、プリテキストとターゲットオブジェクトに依存しないメトリクスを定義するために、広く使われている(非)線形評価プロトコルの上に構築する。
CARLANEは,2次元車線検出のための最初の3方向sim-to-realドメイン適応ベンチマークであり,自己教師付き学習に基づく手法である。
論文 参考訳(メタデータ) (2023-11-30T15:57:55Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning [60.91637862768949]
強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
論文 参考訳(メタデータ) (2023-11-02T01:33:00Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation [49.925499720323806]
視覚的、聴覚的、触覚的知覚が、ロボットが複雑な操作タスクを解くのにどのように役立つかを研究する。
私たちは、カメラで見たり、コンタクトマイクで聞いたり、視覚ベースの触覚センサーで感じるロボットシステムを構築しました。
論文 参考訳(メタデータ) (2022-12-07T18:55:53Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。