論文の概要: ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers
- arxiv url: http://arxiv.org/abs/2505.20032v1
- Date: Mon, 26 May 2025 14:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.503214
- Title: ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers
- Title(参考訳): ViTaPEs:マルチモーダルトランスにおけるクロスモーダルアライメントのためのビゾタクタクタル位置符号化
- Authors: Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert,
- Abstract要約: ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
- 参考スコア(独自算出の注目度): 7.505873965164197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tactile sensing provides local essential information that is complementary to visual perception, such as texture, compliance, and force. Despite recent advances in visuotactile representation learning, challenges remain in fusing these modalities and generalizing across tasks and environments without heavy reliance on pre-trained vision-language models. Moreover, existing methods do not study positional encodings, thereby overlooking the multi-scale spatial reasoning needed to capture fine-grained visuotactile correlations. We introduce ViTaPEs, a transformer-based framework that robustly integrates visual and tactile input data to learn task-agnostic representations for visuotactile perception. Our approach exploits a novel multi-scale positional encoding scheme to capture intra-modal structures, while simultaneously modeling cross-modal cues. Unlike prior work, we provide provable guarantees in visuotactile fusion, showing that our encodings are injective, rigid-motion-equivariant, and information-preserving, validating these properties empirically. Experiments on multiple large-scale real-world datasets show that ViTaPEs not only surpasses state-of-the-art baselines across various recognition tasks but also demonstrates zero-shot generalization to unseen, out-of-domain scenarios. We further demonstrate the transfer-learning strength of ViTaPEs in a robotic grasping task, where it outperforms state-of-the-art baselines in predicting grasp success. Project page: https://sites.google.com/view/vitapes
- Abstract(参考訳): 触覚は、テクスチャ、コンプライアンス、力などの視覚知覚に相補的な局所的な必須情報を提供する。
近年のビズオタクティル表現学習の進歩にもかかわらず、これらのモダリティを融合させ、事前訓練された視覚言語モデルに大きく依存せずにタスクや環境を一般化することは課題である。
さらに、既存の手法では位置エンコーディングを研究せず、細粒度ビゾタクティル相関を捉えるのに必要な空間的多次元推論を見越すことができる。
視覚的および触覚的な入力データをしっかりと統合し、視覚的・触覚的知覚のためのタスク非依存表現を学習するトランスフォーマーベースのフレームワークであるViTaPEsを紹介する。
提案手法は,クロスモーダルキューを同時にモデル化しながら,モーダル内構造をキャプチャする,新しいマルチスケール位置符号化方式を利用する。
従来の研究と異なり、我々はビズオタクティル融合の証明可能な保証を提供し、符号化が注入性、剛体運動同変、情報保存であり、これらの特性を経験的に検証していることを示す。
複数の大規模な実世界のデータセットの実験では、ViTaPEは、さまざまな認識タスクにわたる最先端のベースラインを超えるだけでなく、目に見えないドメイン外のシナリオへのゼロショットの一般化も示している。
さらに,ロボットの把握作業におけるViTaPEの伝達学習強度を実証し,把握成功の予測において最先端のベースラインを上回った。
プロジェクトページ: https://sites.google.com/view/vitapes
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - V-HOP: Visuo-Haptic 6D Object Pose Tracking [18.984396185797667]
人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
事前のポーズ推定研究は視覚的・触覚的・触覚的フィードバックを組み合わせようと試みている。
視覚と触覚の入力をシームレスに統合する新しいビジュオ触覚変換器を用いたオブジェクトポーズトラッカーを提案する。
論文 参考訳(メタデータ) (2025-02-24T18:59:50Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。