論文の概要: The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning
- arxiv url: http://arxiv.org/abs/2311.00924v1
- Date: Thu, 2 Nov 2023 01:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:17:10.261574
- Title: The Power of the Senses: Generalizable Manipulation from Vision and
Touch through Masked Multimodal Learning
- Title(参考訳): 感覚の力:マルチモーダル学習による視覚と触覚からの一般化可能な操作
- Authors: Carmelo Sferrazza, Younggyo Seo, Hao Liu, Youngwoon Lee, Pieter Abbeel
- Abstract要約: 強化学習環境における視覚的・触覚的情報を融合するためのマスク付きマルチモーダル学習(M3L)を提案する。
M3Lは、マスク付きオートエンコーディングに基づいて、ポリシーと視覚触覚表現を学習する。
視覚と触覚の両方の観察を行い、3つの模擬環境におけるM3Lの評価を行った。
- 参考スコア(独自算出の注目度): 60.91637862768949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans rely on the synergy of their senses for most essential tasks. For
tasks requiring object manipulation, we seamlessly and effectively exploit the
complementarity of our senses of vision and touch. This paper draws inspiration
from such capabilities and aims to find a systematic approach to fuse visual
and tactile information in a reinforcement learning setting. We propose Masked
Multimodal Learning (M3L), which jointly learns a policy and visual-tactile
representations based on masked autoencoding. The representations jointly
learned from vision and touch improve sample efficiency, and unlock
generalization capabilities beyond those achievable through each of the senses
separately. Remarkably, representations learned in a multimodal setting also
benefit vision-only policies at test time. We evaluate M3L on three simulated
environments with both visual and tactile observations: robotic insertion, door
opening, and dexterous in-hand manipulation, demonstrating the benefits of
learning a multimodal policy. Code and videos of the experiments are available
at https://sferrazza.cc/m3l_site.
- Abstract(参考訳): 人間は感覚のシナジーを最も重要なタスクに頼っている。
オブジェクト操作を必要とするタスクに対しては、視覚と触覚の相補性をシームレスに効果的に活用する。
本稿では,このような能力からインスピレーションを得て,強化学習環境において視覚・触覚情報を融合するための体系的アプローチを提案する。
本稿では,マスク付き自動符号化に基づいて協調学習を行うMasked Multimodal Learning (M3L)を提案する。
視覚とタッチから共同で学んだ表現は、サンプル効率を改善し、各感覚を通して個別に達成できる以上の一般化を解き放つ。
注目すべきは、マルチモーダルな設定で学んだ表現は、テスト時の視覚のみのポリシーにも役立つことだ。
視覚・触覚の両面を模擬した3つの環境におけるM3Lの評価を行い, ロボット挿入, ドア開口, 器用な手操作を行い, マルチモーダルポリシーの学習のメリットを実証した。
実験のコードとビデオはhttps://sferrazza.cc/m3l_siteで入手できる。
関連論文リスト
- 3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing [18.189782619503074]
本稿では,ロボットのためのマルチモーダルセンシング学習システムであるtextbf3D-ViTacを紹介する。
このシステムは、高密度センシングユニットを備えた触覚センサーを備えており、それぞれが3$mm2$の面積をカバーしている。
低コストのロボットでも精密な操作が可能であり、視覚のみのポリシーよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-10-31T16:22:53Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Vision-Based Manipulators Need to Also See from Their Hands [58.398637422321976]
本研究では,視覚的視点の選択が,生のセンサ観測から身体操作の文脈における学習と一般化にどう影響するかを検討する。
手中心(目の)視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化を一貫して改善する。
論文 参考訳(メタデータ) (2022-03-15T18:46:18Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。