論文の概要: Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study
- arxiv url: http://arxiv.org/abs/2605.06643v1
- Date: Thu, 07 May 2026 17:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.065902
- Title: Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study
- Title(参考訳): マルチモーダルドメイン一般化の進展か? : 総合的なベンチマーク研究
- Authors: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink,
- Abstract要約: MMDG-Benchは、Multimodal Domain Generalizationの最初の統一的で包括的なベンチマークである。
MMDG-Benchは、3つの多様なタスクにまたがる6つのデータセットの評価を標準化する。
汚職の堅牢性、欠落モダリティの一般化、誤分類検出、アウト・オブ・ディストリビューション検出を評価する。
- 参考スコア(独自算出の注目度): 36.264692761556596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.
- Abstract(参考訳): モデルロバスト性を高めるためのMMDG(Multimodal Domain Generalization)の人気が高まっているにもかかわらず、報告された性能向上が真のアルゴリズムの進歩を反映しているか、あるいは一貫性のない評価プロトコルの成果であるのかは不明だ。
現在の研究は断片化されており、データセット、モダリティ設定、実験的な設定で大きく異なる。
さらに、既存のベンチマークは主にアクション認識に重点を置いており、入力の汚職、モダリティの欠如、モデルの信頼性といった重要な現実世界の課題を無視している。
この標準化の欠如は、この分野の進歩に関する信頼性の高い評価を曖昧にしている。
この問題に対処するため、MDDG-BenchはMDDGの最初の統一的で包括的なベンチマークであり、アクション認識、機械的故障診断、感情分析の3つのタスクにまたがる6つのデータセットで評価を標準化する。
MMDG-Benchは6つのモードの組み合わせ、9つの代表的メソッド、複数の評価設定を含んでいる。
標準的な精度を超えて、汚職の堅牢性、モダリティの一般化の欠如、誤分類検出、アウト・オブ・ディストリビューション検出を体系的に評価する。
MMDG-Benchは、95の異なるクロスドメインタスクで合計で7,402のニューラルネットワークをトレーニングし、(1)公正な比較では、最近のMDDGメソッドはERMベースラインよりも限界的な改善しか提供せず、(2)データセットやモダリティの組み合わせで一貫して他よりも優れた1つの手法は存在しない。
関連論文リスト
- MissMAC-Bench: Building Solid Benchmark for Missing Modality Issue in Robust Multimodal Affective Computing [21.70459049925545]
MissMAC-Benchは、公正で統一された評価基準を確立するために設計された総合的なベンチマークである。
2つの原則が提案されており、トレーニング中に欠席することはない。
我々のベンチマークでは、データセットとインスタンスのレベルで、固定されたパターンとランダムなパターンの両方を評価プロトコルに統合しています。
論文 参考訳(メタデータ) (2026-01-31T16:39:34Z) - Effectiveness of Large Multimodal Models in Detecting Disinformation: Experimental Results [0.0]
本研究では,偽情報の検出・緩和における大規模マルチモーダルモデルの可能性について検討する。
本稿では,GPT-4oモデルの高度な機能を活用し,マルチモーダルな偽情報検出手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:07:06Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。