MMDG-Bench: A Benchmark for Multimodal Domain Generalization
Abstractの概要
本論文は、マルチモーダル学習とドメイン汎化の両方における評価を統合するために設計された、マルチモーダルドメイン汎化のためのベンチマーク「MMDG-Bench」を提案しています。このベンチマークは、融合前に各モダリティをドメイン間で揃える「DGの後にMML(D2M)」と、各ドメイン内でモダリティを融合してからドメイン不変性を適用する「MMLの後にDG(M2D)」という2つの相補的な統合順序に基づいて構成されています。先行研究では共同で標準化されていなかった「ビデオ-音声-オプティカルフローによる行動認識」と「RGB-深度-赤外線による顔認識スプーフィング対策」という2つのタスクファミリーにおいて、共通のプロトコルを確立しました。この設定の下、固定されたマルチモーダル構成と5つのドメイン汎化手法を組み合わせることで10種類のベンチマークバリアントを構築し、一貫した条件の下で手法、バックボーン、フレームワークの選択を比較しています。
新規性
主な新規性は、これまでの行動認識のタスクへの偏りやアドホックな評価を超えた、マルチモーダルドメイン汎化のための標準化されたベンチマークの作成です。第二の特徴的な貢献は、D2MとM2Dという2つのフレームワーク順序の明示的な定式化と比較、さらにクロスモーダルな関係性のドメイン間での安定性とそれぞれの順序の適合性を結びつけた分析です。
成果
報告された実験全体において、構築されたMMDGバリアントは、再現されたマルチモーダルDGのベースラインを概ね上回っています。CNNバックボーンを用いた行動認識では、HACの平均スコアが66.78から72.12へ、EPIC-Kitchensでは64.80から66.98へと向上し、顔スプーフィング対策では、最高平均性能が再現ベースラインの21.92/84.35または20.42/83.83(HTER/AUC)から、HTER 14.40およびAUC 90.05に改善しました。また、HACと顔スプーフィング対策ではM2Dがより強力である一方、EPIC-KitchensではD2Mがより確実であり、明示的なDGを導入することで、より強力なバックボーンやモダリティ欠損テスト下での堅牢性が向上することが示されています。
論文の注目点
- MMDG-Benchは、一貫したMMLおよびDGコンポーネントから構築された10のバリアントと統一されたプロトコルを使用し、2つの異なるタスクにわたるマルチモーダルドメイン汎化の評価を標準化している。
- 本ベンチマークにより、マルチモーダル学習に明示的なドメイン汎化手法を追加することで、バックボーンの変更を含む様々な条件下で、マルチモーダルのみのベースラインよりも信頼性の高いクロスドメイン性能が得られることが強調された。
- 最適なフレームワークは一律ではなく、クロスモーダルな関係がドメイン間で安定している場合はD2Mが有利であり、関係性がドメイン間で変動する場合や顔スプーフィング対策のモダリティ欠損テストにおいてはM2Dがより有効である。