論文の概要: TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception
- arxiv url: http://arxiv.org/abs/2511.19509v1
- Date: Mon, 24 Nov 2025 00:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.053958
- Title: TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception
- Title(参考訳): TouchFormer: マルチモーダル材料知覚のためのロバストトランスフォーマーベースのフレームワーク
- Authors: Kailin Lyu, Long Xiao, Jianing Zeng, Junhao Dong, Xuexin Liu, Zhuojun Zou, Haoyue Yang, Lin Shu, Jie Hao,
- Abstract要約: 我々は,堅牢なマルチモーダル融合フレームワークであるTouchFormerを提案する。
モーダリティ適応ゲーティング機構とモーダリティ内およびモーダリティ間注意機構を用いて、モーダリティ間特徴を適応的に統合する。
SSMCおよびサブカテゴリタスクにおいて,TouchFormerは2.48%,6.83%の分類精度の向上を実現している。
- 参考スコア(独自算出の注目度): 8.939880394166348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional vision-based material perception methods often experience substantial performance degradation under visually impaired conditions, thereby motivating the shift toward non-visual multimodal material perception. Despite this, existing approaches frequently perform naive fusion of multimodal inputs, overlooking key challenges such as modality-specific noise, missing modalities common in real-world scenarios, and the dynamically varying importance of each modality depending on the task. These limitations lead to suboptimal performance across several benchmark tasks. In this paper, we propose a robust multimodal fusion framework, TouchFormer. Specifically, we employ a Modality-Adaptive Gating (MAG) mechanism and intra- and inter-modality attention mechanisms to adaptively integrate cross-modal features, enhancing model robustness. Additionally, we introduce a Cross-Instance Embedding Regularization(CER) strategy, which significantly improves classification accuracy in fine-grained subcategory material recognition tasks. Experimental results demonstrate that, compared to existing non-visual methods, the proposed TouchFormer framework achieves classification accuracy improvements of 2.48% and 6.83% on SSMC and USMC tasks, respectively. Furthermore, real-world robotic experiments validate TouchFormer's effectiveness in enabling robots to better perceive and interpret their environment, paving the way for its deployment in safety-critical applications such as emergency response and industrial automation. The code and datasets will be open-source, and the videos are available in the supplementary materials.
- Abstract(参考訳): 従来の視覚に基づく材料知覚法は、視覚障害のある条件下での実質的な性能劣化を経験し、非視覚的マルチモーダル材料知覚へのシフトを動機付けている。
これにもかかわらず、既存のアプローチでは、実世界のシナリオに共通するモダリティの欠如や、タスクに応じて各モダリティの動的に異なる重要性など、モダリティ固有のノイズといった重要な課題を克服し、多モーダル入力の自然な融合を頻繁に実施している。
これらの制限は、複数のベンチマークタスクにまたがって、最適以下のパフォーマンスをもたらす。
本稿では,ロバストなマルチモーダル融合フレームワークであるTouchFormerを提案する。
具体的には、モーダリティ適応ゲーティング(MAG)機構と、モーダリティ内およびモーダリティ間アテンション機構を用いて、モーダリティ間の特徴を適応的に統合し、モデルロバスト性を高める。
さらに、細粒度サブカテゴリの材料認識タスクにおける分類精度を大幅に向上するクロスインスタンス埋め込み正規化(CER)戦略を導入する。
実験の結果,既存の非視覚的手法と比較して,提案したTouchFormerフレームワークでは,SSMCタスクとUSMCタスクの分類精度が2.48%,6.83%向上していることがわかった。
さらに、現実のロボット実験は、TouchFormerがロボットが環境をよりよく認識し、解釈できるようにし、緊急対応や産業自動化といった安全クリティカルなアプリケーションに展開するための道を開いたことの有効性を検証する。
コードとデータセットはオープンソースで、ビデオは補足資料で利用できる。
関連論文リスト
- Rethinking Efficient Mixture-of-Experts for Remote Sensing Modality-Missing Classification [33.302856478333524]
リモートセンシングにおけるマルチモーダル分類は、環境干渉、センサーの故障、大気の影響によって生じるモダリティの欠如に悩まされることが多い。
既存の2段階適応法は計算コストが高く、訓練中に完全なマルチモーダルデータを仮定し、その一般化を実世界の不完全性に制限する。
マルチタスク学習問題として欠落したモダリティを再構成するMissing-Aware Mixture-of-Lorasフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-14T16:31:37Z) - Multi-Modal Manipulation via Multi-Modal Policy Consensus [62.49978559936122]
本稿では,ロボット操作のための多様な感覚モダリティを統合するための新しいアプローチを提案する。
提案手法は,それぞれが単一の表現に特化している拡散モデルの集合にポリシーを分解する。
我々は、RLBenchにおけるシミュレーション操作タスクと、隠蔽対象のピック、手作業のスプーン再配向、パズル挿入といった実世界のタスクについて評価した。
論文 参考訳(メタデータ) (2025-09-27T19:43:04Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。