論文の概要: BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.03675v1
- Date: Wed, 04 Jun 2025 08:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.220959
- Title: BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation
- Title(参考訳): BiXFormer: マルチモーダルセマンティックセマンティックセグメンテーションにおけるモダリティ有効性を最大化するロバストフレームワーク
- Authors: Jialei Chen, Xu Zheng, Danda Pani Paudel, Luc Van Gool, Hiroshi Murase, Daisuke Deguchi,
- Abstract要約: マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 55.486872677160015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Utilizing multi-modal data enhances scene understanding by providing complementary semantic and geometric information. Existing methods fuse features or distill knowledge from multiple modalities into a unified representation, improving robustness but restricting each modality's ability to fully leverage its strengths in different situations. We reformulate multi-modal semantic segmentation as a mask-level classification task and propose BiXFormer, which integrates Unified Modality Matching (UMM) and Cross Modality Alignment (CMA) to maximize modality effectiveness and handle missing modalities. Specifically, BiXFormer first categorizes multi-modal inputs into RGB and X, where X represents any non-RGB modalities, e.g., depth, allowing separate processing for each. This design leverages the well-established pretraining for RGB, while addressing the relative lack of attention to X modalities. Then, we propose UMM, which includes Modality Agnostic Matching (MAM) and Complementary Matching (CM). MAM assigns labels to features from all modalities without considering modality differences, leveraging each modality's strengths. CM then reassigns unmatched labels to remaining unassigned features within their respective modalities, ensuring that each available modality contributes to the final prediction and mitigating the impact of missing modalities. Moreover, to further facilitate UMM, we introduce CMA, which enhances the weaker queries assigned in CM by aligning them with optimally matched queries from MAM. Experiments on both synthetic and real-world multi-modal benchmarks demonstrate the effectiveness of our method, achieving significant improvements in mIoU of +2.75% and +22.74% over the prior arts.
- Abstract(参考訳): マルチモーダルデータを利用すると、相補的意味情報と幾何学的情報を提供することで、シーン理解が向上する。
既存の方法は、特徴を融合させたり、複数のモダリティから知識を抽出し、統一された表現へと融合させ、堅牢性を向上させるが、それぞれのモダリティが異なる状況でその強みを完全に活用する能力を制限する。
マスクレベルの分類タスクとして多モードセマンティックセグメンテーションを再構成し、統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
具体的には、BiXFormerはまずマルチモーダル入力をRGBとXに分類する。
この設計は、Xモダリティに対する注意の相対的欠如に対処しながら、RGBの確立した事前訓練を活用する。
次に,モーダリティ・アグノスティック・マッチング (MAM) と補完的マッチング (CM) を含む UMM を提案する。
MAMは、モダリティの違いを考慮せずに、すべてのモダリティの特徴にラベルを割り当て、各モダリティの強さを活用する。
CMは未整合ラベルをそれぞれのモダリティ内に残すように再割り当てし、各モダリティが最終的な予測に寄与し、欠落モダリティの影響を軽減する。
さらに、UMMをさらに促進するために、CMに割り当てられたより弱いクエリをMAMから最適にマッチしたクエリと整合させることにより強化するCMAを導入する。
人工的および実世界のマルチモーダルベンチマークの実験では、この手法の有効性が示され、mIoUの+2.75%と+22.74%の大幅な改善が達成された。
関連論文リスト
- EGFormer: Towards Efficient and Generalizable Multimodal Semantic Segmentation [6.314084134346798]
EGFormerは効率的なマルチモーダルセマンティックセグメンテーションフレームワークである。
任意の数のモダリティを柔軟に統合し、モデルパラメータと推論時間を著しく削減する。
最大88%のパラメータが減少し、50%のGFLOPが削減される。
論文 参考訳(メタデータ) (2025-05-20T07:08:49Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - MCSFF: Multi-modal Consistency and Specificity Fusion Framework for Entity Alignment [7.109735168520378]
知識グラフの強化と質問応答システムの改善には,MMEA(Multi-modal entity alignment)が不可欠である。
既存の方法は、しばしばそれらの相補性を通じてモダリティを統合することにフォーカスするが、各モダリティの特異性を見落としている。
本稿では,モダリティの相補性と特異性の両方を革新的に統合するマルチモーダル一貫性・特異性融合フレームワーク(MCSFF)を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:35:25Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。