Fugu-MT 論文翻訳(概要): COMPASS: Complete Multimodal Fusion via Proxy Tokens and Shared Spaces for Ubiquitous Sensing

論文の概要: COMPASS: Complete Multimodal Fusion via Proxy Tokens and Shared Spaces for Ubiquitous Sensing

arxiv url: http://arxiv.org/abs/2604.02056v1
Date: Thu, 02 Apr 2026 13:55:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-03 14:21:10.834514
Title: COMPASS: Complete Multimodal Fusion via Proxy Tokens and Shared Spaces for Ubiquitous Sensing
Title（参考訳）: CompASS: ユビキタスセンシングのためのプロキシトークンと共有スペースによる完全マルチモーダルフュージョン
Authors: Hao Wang, Yanyu Qian, Pengcheng Weng, Zixuan Xia, William Dan, Yangxin Xu, Fei Wang,
Abstract要約: 本稿では, 融合完全性の原理に基づくモダリティの欠如による融合フレームワークを提案する。各モダリティの欠落に対して、観測されたモダリティからターゲット固有のプロキシトークンを合成する。 XRF55、MM-Fi、OctoNetを多種多様なシングル・マルチ・ミス設定で実験した結果、我々のフレームワークは従来の手法よりも優れていたことが判明した。
参考スコア（独自算出の注目度）: 7.598111859541752
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Missing modalities remain a major challenge for multimodal sensing, because most existing methods adapt the fusion process to the observed subset by dropping absent branches, using subset-specific fusion, or reconstructing missing features. As a result, the fusion head often receives an input structure different from the one seen during training, leading to incomplete fusion and degraded cross-modal interaction. We propose COMPASS, a missing-modality fusion framework built on the principle of fusion completeness: the fusion head always receives a fixed N-slot multimodal input, with one token per modality slot. For each missing modality, COMPASS synthesizes a target-specific proxy token from the observed modalities using pairwise source-to-target generators in a shared latent space, and aggregates them into a single replacement token. To make these proxies both representation-compatible and task-informative, we combine proxy alignment, shared-space regularization, and per-proxy discriminative supervision. Experiments on XRF55, MM-Fi, and OctoNet under diverse single- and multiple-missing settings show that COMPASS outperforms prior methods on the large majority of scenarios. Our results suggest that preserving a modality-complete fusion interface is a simple and effective design principle for robust multimodal sensing.
Abstract（参考訳）: なぜなら、既存のほとんどのメソッドは、欠落した枝を落として、サブセット固有の融合を使用して、または欠落した特徴を再構築することによって、観察されたサブセットに融合プロセスを適用するためである。その結果、融合ヘッドは、訓練中に見られるものと異なる入力構造を受け取り、不完全な融合と劣化した相互モーダル相互作用をもたらす。我々は、融合完全性の原理に基づいて構築された欠落モード融合フレームワークCompASSを提案し、融合ヘッドは、常に固定Nスロットマルチモーダル入力を受け取り、モダリティスロットごとに1トークンを割り当てる。欠落した各モダリティに対して、CompASSは、観測されたモダリティから、共有潜在空間内のペアワイズソース・ツー・ターゲットジェネレータを使用してターゲット固有のプロキシトークンを合成し、それらを単一の置換トークンに集約する。これらのプロキシを表現互換とタスク不変の両方にするために、プロキシアライメント、共有空間正規化、およびプロキシごとの差別的監視を組み合わせる。 XRF55、MM-Fi、OctoNetを多種多様なシングル・マルチ・ミス・セッティングで実験した結果、CompASSはほとんどのシナリオにおいて従来の手法よりも優れていたことが判明した。この結果から, モダリティ完全融合インタフェースの保存は, 堅牢なマルチモーダルセンシングのためのシンプルかつ効果的な設計原理であることが示唆された。

関連論文リスト

Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation [8.840077295284393]
MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。 ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-03-18T13:23:58Z)
SiMO: Single-Modality-Operable Multimodal Collaborative Perception [21.057627256755385]
本稿では,Single-Modality-Operable Multimodal Collaborative Perception (SiMO)を紹介する。提案したLongth-Adaptive Multi-Modal Fusion (LAMMA) を採用することで、SiMOはモード故障時に残ったモード特徴を適応的に処理できる。実験により、SiMOは、モダリティ固有の特徴を同時に保存しながら、マルチモーダルな特徴を効果的に整列することを示した。
論文参考訳（メタデータ） (2026-03-09T11:09:53Z)
Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文参考訳（メタデータ） (2026-03-07T03:58:48Z)
Feature-level Interaction Explanations in Multimodal Transformers [1.7101146971136896]
マルチモーダルトランスフォーマーは、異なるモーダルが共同で意思決定をどのように支援するかを明確にすることなく、予測を生成する。本稿では,凍結した事前学習エンコーダからトークン/パッチシーケンスを直接操作する構造化Mixture-of-Experts層であるFeature-level I2MoEを提案する。我々は,帰属とトップK%マスキングを組み合わせ,忠実度を評価する専門的な説明パイプラインを開発する。
論文参考訳（メタデータ） (2026-03-04T18:24:31Z)
UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文参考訳（メタデータ） (2025-09-19T17:29:25Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-19T02:27:30Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。 IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文参考訳（メタデータ） (2021-12-02T16:09:33Z)
Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文参考訳（メタデータ） (2021-08-11T03:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。