Fugu-MT 論文翻訳(概要): Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness

論文の概要: Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness

arxiv url: http://arxiv.org/abs/2503.18445v1
Date: Mon, 24 Mar 2025 08:46:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:17.169207
Title: Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness
Title（参考訳）: センサ故障時のマルチモーダルセマンティックセマンティックセグメンテーションのベンチマーク
Authors: Chenfei Liao, Kaiyu Lei, Xu Zheng, Junha Moon, Zhixiong Wang, Yixuan Wang, Danda Pani Paudel, Luc Van Gool, Xuming Hu,
Abstract要約: マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
参考スコア（独自算出の注目度）: 61.87055159919641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal semantic segmentation (MMSS) addresses the limitations of single-modality data by integrating complementary information across modalities. Despite notable progress, a significant gap persists between research and real-world deployment due to variability and uncertainty in multi-modal data quality. Robustness has thus become essential for practical MMSS applications. However, the absence of standardized benchmarks for evaluating robustness hinders further advancement. To address this, we first survey existing MMSS literature and categorize representative methods to provide a structured overview. We then introduce a robustness benchmark that evaluates MMSS models under three scenarios: Entire-Missing Modality (EMM), Random-Missing Modality (RMM), and Noisy Modality (NM). From a probabilistic standpoint, we model modality failure under two conditions: (1) all damaged combinations are equally probable; (2) each modality fails independently following a Bernoulli distribution. Based on these, we propose four metrics-$mIoU^{Avg}_{EMM}$, $mIoU^{E}_{EMM}$, $mIoU^{Avg}_{RMM}$, and $mIoU^{E}_{RMM}$-to assess model robustness under EMM and RMM. This work provides the first dedicated benchmark for MMSS robustness, offering new insights and tools to advance the field. Source code is available at https://github.com/Chenfei-Liao/Multi-Modal-Semantic-Segmentation-Robustness-Benchmark.
Abstract（参考訳）: マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。したがって、実用的MMSSアプリケーションにはロバスト性が不可欠である。しかし、ロバスト性を評価するための標準ベンチマークがないため、さらなる進歩は妨げられる。そこで本稿では,既存のMMSS文献をまず調査し,構造化された概要を提供する代表的手法を分類する。次に,EMM(Entire-Missing Modality),RMM(Random-Missing Modality),NM(Noisy Modality)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。確率的観点からは、(1)全ての損傷された組合せは等しく確率的であり、(2)各モダリティはベルヌーイ分布の後に独立に失敗する。これらに基づき、mIoU^{Avg}_{EMM}$, $mIoU^{E}_{EMM}$, $mIoU^{Avg}_{RMM}$, $mIoU^{E}_{RMM}$-to evaluate model robustness under EMM and RMM。この作業はMMSSの堅牢性に関する最初の専用のベンチマークを提供し、フィールドを前進させるための新しい洞察とツールを提供する。ソースコードはhttps://github.com/Chenfei-Liao/Multi-Modal-Semantic-Segmentation-Robustness-Benchmarkで公開されている。

関連論文リスト

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data [31.146366498415784]
マルチモーダルセマンティックセグメンテーションは、リモートセンシング地球観測のための多様なセンサーからの補完情報を統合する。 IMSSは3つの主要な課題に直面している:マルチモーダル不均衡、支配的なモダリティが脆弱なモダリティを抑えること、スケール、形状、方向のクラス内変化、矛盾するキーと矛盾するセマンティック応答を生み出すクロスモーダル不均一。本稿では,セマンティック・ガイド・モダリティ・アウェア(SGMA)フレームワークを提案する。セマンティック・モダリティ・アウェア(SGMA)フレームワークは,クラス内変動の低減とセマンティックガイダンスによる相互不整合の緩和を図りつつ,バランスの取れたマルチモーダル学習を実現する。
論文参考訳（メタデータ） (2026-03-03T01:28:21Z)
I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [56.55935146424585]
textbfIncomplete textbfModality textbfRecommendation の textbfInformation ボトルネック原理を用いて学習する textbfI$3$-MRec を紹介する。それぞれのモダリティを異なる意味環境として扱うことで、I$3$-MRecは、優先指向の表現を学習するために不変リスク最小化(IRM)を採用する。 I$3$-MRecは、様々なモダリティ欠落シナリオにおいて、既存の最先端MSSメソッドを一貫して上回る
論文参考訳（メタデータ） (2025-08-06T09:29:50Z)
Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency [0.0]
本研究では,各モダリティの寄与をサンプル単位で適応的に調整する新しいフレームワークである動的モダリティスケジューリング(DMS)を提案する。 VQA、画像テキスト検索、キャプションタスクの実験結果から、DMSはクリーンとロバストの両方のパフォーマンスを著しく改善することが示された。
論文参考訳（メタデータ） (2025-06-15T05:15:52Z)
Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts [8.259321830040204]
本稿では,モダリティの欠如とOF-Distribution(OOD)データの両方を同時に扱うための新しいフレームワークを提案する。 CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
論文参考訳（メタデータ） (2025-06-12T07:58:17Z)
BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
RMMSS: Towards Advanced Robust Multi-Modal Semantic Segmentation with Hybrid Prototype Distillation and Feature Selection [9.418241223504252]
RMMSSは、モダリティの欠如した条件下でモデルロバスト性を高めるために設計された2段階のフレームワークである。これは2つの重要なコンポーネントで構成されている。ハイブリッドプロトタイプ蒸留モジュール (HPDM) と特徴選択モジュール (FSM) である。 3つのデータセットに対する実験により,本手法は,それぞれ2.80%,3.89%,0.89%のモダリティ性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-19T08:46:03Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-16T03:19:59Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報はソーシャルメディアのプラットフォームで増え続けている問題です本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文参考訳（メタデータ） (2023-04-27T12:28:29Z)
Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文参考訳（メタデータ） (2023-04-21T05:52:50Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
Missing Modality meets Meta Sampling (M3S): An Efficient Universal Approach for Multimodal Sentiment Analysis with Missing Modality [5.171058506312429]
モダリティを欠いたマルチモーダル感情分析,すなわちミス・モダリティに基づくメタサンプリング(M3S)のための,シンプルで効果的なメタサンプリング手法を提案する。 M3Sは、モーダル非依存メタラーニングフレームワークに欠落したモダリティサンプリング戦略を定式化する。我々は,IEMOCAP,SIMS,CMU-MOSIデータセット上で実験を行い,最近の最先端手法と比較して優れた性能を実現する。
論文参考訳（メタデータ） (2022-10-07T09:54:05Z)
A Novel Unified Conditional Score-based Generative Framework for Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。 UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。 BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文参考訳（メタデータ） (2022-07-07T16:57:21Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。