論文の概要: CrossWeaver: Cross-modal Weaving for Arbitrary-Modality Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.02948v1
- Date: Fri, 03 Apr 2026 10:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.447284
- Title: CrossWeaver: Cross-modal Weaving for Arbitrary-Modality Semantic Segmentation
- Title(参考訳): CrossWeaver: 任意モードセマンティックセマンティックセグメンテーションのためのクロスモーダルウィービング
- Authors: Zelin Zhang, Kedi Li, Huiqi Liang, Tao Zhang, Chuanzhi Xu,
- Abstract要約: CrossWeaverは、任意のモダリティセマンティックセグメンテーションのためのシンプルで効果的なフレームワークである。
コアはModality Interaction Block (MIB) で、エンコーダ内の選択的かつ信頼性に配慮した相互モーダルインタラクションを可能にする。
我々のフレームワークは、最小限の追加パラメータと、目に見えないモダリティの組み合わせへの強力な一般化により、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 2.9550741910325153
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal semantic segmentation has shown great potential in leveraging complementary information across diverse sensing modalities. However, existing approaches often rely on carefully designed fusion strategies that either use modality-specific adaptations or rely on loosely coupled interactions, thereby limiting flexibility and resulting in less effective cross-modal coordination. Moreover, these methods often struggle to balance efficient information exchange with preserving the unique characteristics of each modality across different modality combinations. To address these challenges, we propose CrossWeaver, a simple yet effective multimodal fusion framework for arbitrary-modality semantic segmentation. Its core is a Modality Interaction Block (MIB), which enables selective and reliability-aware cross-modal interaction within the encoder, while a lightweight Seam-Aligned Fusion (SAF) module further aggregates the enhanced features. Extensive experiments on multiple multimodal semantic segmentation benchmarks demonstrate that our framework achieves state-of-the-art performance with minimal additional parameters and strong generalization to unseen modality combinations.
- Abstract(参考訳): マルチモーダルなセマンティックセグメンテーションは、様々な知覚モダリティにまたがる相補的な情報を活用する大きな可能性を示している。
しかし、既存のアプローチは、しばしばモダリティ固有の適応を利用するか、疎結合な相互作用に依存するように慎重に設計された融合戦略に頼り、柔軟性を制限し、より効果的なクロスモーダルコーディネートをもたらす。
さらに、これらの手法は、各モダリティの固有の特性を異なるモダリティの組み合わせで保ちながら、効率的な情報交換のバランスをとるのに苦労することが多い。
これらの課題に対処するために、任意のモーダルセマンティックセマンティックセグメンテーションのためのシンプルで効果的なマルチモーダル融合フレームワークであるCrossWeaverを提案する。
コアはModality Interaction Block (MIB) で、エンコーダ内の選択的かつ信頼性に配慮したクロスモーダルインタラクションを可能にし、軽量なSeam-Aligned Fusion (SAF) モジュールは拡張された機能をさらに集約する。
マルチモーダルなセマンティックセマンティック・セマンティクス・ベンチマークの大規模な実験により、我々のフレームワークは、最小限の追加パラメータと、目に見えないモダリティの組み合わせへの強力な一般化により、最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation [6.302779966909783]
医用画像セグメンテーションのための新しい半教師付きマルチモーダルフレームワークを提案する。
モダリティ固有のエンハンシングモジュール(MEM)を導入し、各モダリティに意味的なユニークな手がかりを強化する。
また,学習可能な相補的情報融合(CIF)モジュールを導入し,モダリティ間の相補的知識を適応的に交換する。
論文 参考訳(メタデータ) (2025-12-10T16:15:17Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。