論文の概要: Visuo-Tactile Transformers for Manipulation
- arxiv url: http://arxiv.org/abs/2210.00121v1
- Date: Fri, 30 Sep 2022 22:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:20:49.926449
- Title: Visuo-Tactile Transformers for Manipulation
- Title(参考訳): ビンスオ触覚変換器
- Authors: Yizhou Chen, Andrea Sipos, Mark Van der Merwe, Nima Fazeli
- Abstract要約: 本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。
具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域における重要なタスク機能に注意を集中する潜時ヒートマップ表現を構築する。
- 参考スコア(独自算出の注目度): 4.60687205898687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning representations in the joint domain of vision and touch can improve
manipulation dexterity, robustness, and sample-complexity by exploiting mutual
information and complementary cues. Here, we present Visuo-Tactile Transformers
(VTTs), a novel multimodal representation learning approach suited for
model-based reinforcement learning and planning. Our approach extends the
Visual Transformer \cite{dosovitskiy2021image} to handle visuo-tactile
feedback. Specifically, VTT uses tactile feedback together with self and
cross-modal attention to build latent heatmap representations that focus
attention on important task features in the visual domain. We demonstrate the
efficacy of VTT for representation learning with a comparative evaluation
against baselines on four simulated robot tasks and one real world block
pushing task. We conduct an ablation study over the components of VTT to
highlight the importance of cross-modality in representation learning.
- Abstract(参考訳): 視覚と触覚のジョイント領域における学習表現は、相互情報と補完的手がかりを活用し、操作のデキスタリティ、ロバスト性、サンプル複雑度を向上させることができる。
本稿では,モデルに基づく強化学習と計画に適した,新しいマルチモーダル表現学習手法であるVisuo-Tactile Transformers(VTT)を提案する。
我々のアプローチは視覚トランスフォーマー \cite{dosovitskiy2021image} を拡張し、視覚触覚フィードバックを処理する。
具体的には、VTTは触覚フィードバックと自己および横断的な注意を用いて、視覚領域の重要なタスク機能に注意を集中する潜熱マップ表現を構築する。
4つの模擬ロボットタスクと1つの実世界ブロックプッシュタスクのベースラインに対して比較評価を行い,VTTによる表現学習の有効性を示した。
表現学習におけるモダリティの重要性を明らかにするために,VTTの構成要素に関するアブレーション研究を行う。
関連論文リスト
- Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning Task Informed Abstractions [10.920599910769276]
本稿では,報酬関連視覚的特徴を注意散らしから明確に分離する学習タスクインフォームド抽象化(TIA)を提案する。
TIAは、多くの視覚制御タスクにおける最先端の手法よりも大きなパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2021-06-29T17:56:11Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。