論文の概要: Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.10756v1
- Date: Fri, 21 Apr 2023 05:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:50:44.113206
- Title: Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation
- Title(参考訳): 半教師付きマルチモーダル意味セグメンテーションにおける不確かさの欠如
- Authors: Harsh Maheshwari, Yen-Cheng Liu, Zsolt Kira
- Abstract要約: 簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
- 参考スコア(独自算出の注目度): 27.23513712371972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using multiple spatial modalities has been proven helpful in improving
semantic segmentation performance. However, there are several real-world
challenges that have yet to be addressed: (a) improving label efficiency and
(b) enhancing robustness in realistic scenarios where modalities are missing at
the test time. To address these challenges, we first propose a simple yet
efficient multi-modal fusion mechanism Linear Fusion, that performs better than
the state-of-the-art multi-modal models even with limited supervision. Second,
we propose M3L: Multi-modal Teacher for Masked Modality Learning, a
semi-supervised framework that not only improves the multi-modal performance
but also makes the model robust to the realistic missing modality scenario
using unlabeled data. We create the first benchmark for semi-supervised
multi-modal semantic segmentation and also report the robustness to missing
modalities. Our proposal shows an absolute improvement of up to 10% on robust
mIoU above the most competitive baselines. Our code is available at
https://github.com/harshm121/M3L
- Abstract(参考訳): 複数の空間的モダリティを使用することでセマンティックセグメンテーションの性能を向上させることが証明されている。
しかし、まだ解決されていない現実の課題がいくつかある。
(a)ラベル効率の向上及び
b) テスト時にモダリティが欠落している現実的なシナリオにおける堅牢性の向上。
これらの課題に対処するため,我々はまず,限られた監督のもとでも最先端のマルチモーダルモデルよりも優れた性能を持つ,単純で効率的なマルチモーダル融合機構線形融合を提案する。
マルチモーダル・モダリティ・ラーニング(M3L: Multi-modal Teacher for Masked Modality Learning)は、マルチモーダル・パフォーマンスを向上するだけでなく、ラベルのないデータを用いた現実的なモダリティ・シナリオに頑健にする半教師付きフレームワークである。
我々は,半教師付きマルチモーダルセマンティクスセグメンテーションのための最初のベンチマークを作成し,欠落したモダリティに対するロバスト性について報告する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%改善したことを示す。
私たちのコードはhttps://github.com/harshm121/M3Lで利用可能です。
関連論文リスト
- Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation [38.46193005513166]
Modality-Incomplete Scene (MISS) というタスクを確立する。
MISSはシステムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含んでいる。
我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
論文 参考訳(メタデータ) (2024-01-30T11:46:27Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z) - MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing [3.3031006227198003]
マルチモーダルデータの助けを借りて任意のモーダルアタックの性能を向上させることを目的としたモダリティ非依存型視覚変換器(MA-ViT)を提案する。
具体的には、MA-ViTは早期融合を採用し、利用可能なすべてのトレーニングモダリティデータを集約し、任意のモダリティサンプルの柔軟なテストを可能にする。
実験により、MA-ViTでトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-04-15T13:03:44Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。