論文の概要: Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.10756v1
- Date: Fri, 21 Apr 2023 05:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:50:44.113206
- Title: Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation
- Title(参考訳): 半教師付きマルチモーダル意味セグメンテーションにおける不確かさの欠如
- Authors: Harsh Maheshwari, Yen-Cheng Liu, Zsolt Kira
- Abstract要約: 簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
- 参考スコア(独自算出の注目度): 27.23513712371972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using multiple spatial modalities has been proven helpful in improving
semantic segmentation performance. However, there are several real-world
challenges that have yet to be addressed: (a) improving label efficiency and
(b) enhancing robustness in realistic scenarios where modalities are missing at
the test time. To address these challenges, we first propose a simple yet
efficient multi-modal fusion mechanism Linear Fusion, that performs better than
the state-of-the-art multi-modal models even with limited supervision. Second,
we propose M3L: Multi-modal Teacher for Masked Modality Learning, a
semi-supervised framework that not only improves the multi-modal performance
but also makes the model robust to the realistic missing modality scenario
using unlabeled data. We create the first benchmark for semi-supervised
multi-modal semantic segmentation and also report the robustness to missing
modalities. Our proposal shows an absolute improvement of up to 10% on robust
mIoU above the most competitive baselines. Our code is available at
https://github.com/harshm121/M3L
- Abstract(参考訳): 複数の空間的モダリティを使用することでセマンティックセグメンテーションの性能を向上させることが証明されている。
しかし、まだ解決されていない現実の課題がいくつかある。
(a)ラベル効率の向上及び
b) テスト時にモダリティが欠落している現実的なシナリオにおける堅牢性の向上。
これらの課題に対処するため,我々はまず,限られた監督のもとでも最先端のマルチモーダルモデルよりも優れた性能を持つ,単純で効率的なマルチモーダル融合機構線形融合を提案する。
マルチモーダル・モダリティ・ラーニング(M3L: Multi-modal Teacher for Masked Modality Learning)は、マルチモーダル・パフォーマンスを向上するだけでなく、ラベルのないデータを用いた現実的なモダリティ・シナリオに頑健にする半教師付きフレームワークである。
我々は,半教師付きマルチモーダルセマンティクスセグメンテーションのための最初のベンチマークを作成し,欠落したモダリティに対するロバスト性について報告する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%改善したことを示す。
私たちのコードはhttps://github.com/harshm121/M3Lで利用可能です。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。