論文の概要: MER-DG: Modality-Entropy Regularization for Multimodal Domain Generalization
- arxiv url: http://arxiv.org/abs/2605.01967v1
- Date: Sun, 03 May 2026 16:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.02206
- Title: MER-DG: Modality-Entropy Regularization for Multimodal Domain Generalization
- Title(参考訳): MER-DG:マルチモーダル領域一般化のためのモダリティエントロピー正規化
- Authors: Yavuz Yarici, Ghassan AlRegib,
- Abstract要約: ドメイン一般化のためのモダリティ-エントロピー正規化(MER-DG)を提案する。
MER-DGは、各エンコーダの特徴分布のエントロピーを最大化し、特徴の多様性を維持する。
EPIC-KitchensとHACベンチマークの実験では、標準核融合よりも平均で約5%改善されている。
- 参考スコア(独自算出の注目度): 6.929741688224915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying multimodal models in real-world scenarios requires generalization to new environments where recording conditions differ from training, a challenge known as multimodal domain generalization (MMDG). Standard architectures employ separate encoders for each modality and a fusion module, training the system end-to-end by optimizing on the fused features. In this paper, we identify that such joint optimization causes encoders to exploit cross-modal co-occurrences, statistical relationships between modalities that arise from source-specific recording conditions, rather than learning domain-invariant features. We term this failure mode Fusion Overfitting. To address this, we propose Modality-Entropy Regularization for Domain Generalization (MER-DG), which maximizes the entropy of each encoder's feature distribution to preserve feature diversity. MER-DG is architecture-agnostic and integrates into existing multimodal frameworks as an additive loss term. Extensive experiments on EPIC-Kitchens and HAC benchmarks demonstrate average improvements of approximately 5% over standard fusion and approximately 2% over state-of-the-art methods.
- Abstract(参考訳): 実世界のシナリオにマルチモーダルモデルをデプロイするには、記録条件がトレーニングと異なる新しい環境、MMDG(Multimodal Domain Generalization)と呼ばれる課題への一般化が必要である。
標準アーキテクチャでは、それぞれのモダリティと融合モジュールに別々のエンコーダを使用し、融合した特徴を最適化してシステムのエンドツーエンドを訓練する。
本稿では,このような共同最適化が,ドメイン不変の特徴を学習するのではなく,ソース固有記録条件から生じるモダリティ間の統計的関係であるクロスモーダルコクレンスをエンコーダが活用することを明らかにする。
この障害モードをFusion Overfittingと呼ぶ。
そこで本研究では,各エンコーダの特徴分布のエントロピーを最大化して特徴量の多様性を保ったドメイン一般化のためのModality-Entropy Regularization for Domain Generalization (MER-DG)を提案する。
MER-DGはアーキテクチャに依存しず、付加的な損失項として既存のマルチモーダルフレームワークに統合される。
EPIC-Kitchens と HAC ベンチマークの大規模な実験では、標準核融合の約5%、最先端の手法の約2%の改善が示されている。
関連論文リスト
- Multi-modal cross-domain mixed fusion model with dual disentanglement for fault diagnosis under unseen working conditions [7.135832969368086]
本稿では,マルチモーダルクロスドメイン混合核融合モデルを提案する。
一定時間および時間変化のある作業条件下での誘導運動障害診断実験を行った。
論文 参考訳(メタデータ) (2025-12-31T07:10:32Z) - Modality-Collaborative Low-Rank Decomposers for Few-Shot Video Domain Adaptation [74.16390314862801]
FSVDA(Few-Shot Video Domain Adaptation)の課題について検討する。
モダリティ・ユニクティック・モダリティ・共有特徴を分解するために,モダリティ・コラボレーティブ・ローランク・デコンポスタ(MC-LRD)の新たなフレームワークを導入する。
我々のモデルは既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-24T03:09:59Z) - Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations [43.07575348801021]
ドメイン一般化(DG)は、ソースドメインのみをトレーニングすることで、目に見えない、あるいは分散的にシフトしたターゲットドメインにおけるモデルの堅牢性を高めることを目的としている。
マルチモーダル・ドメイン・ジェネリゼーション(MMDG)における重要な課題は、マルチモーダル・ソースで訓練されたモデルが、同じモダリティ・セット内の未確認対象の分布に一般化できるようにすることである。
我々は、統一表現を利用して異なるペアのモダリティをマッピングする新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-04T05:17:32Z) - Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [54.196385799229006]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。
1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文 参考訳(メタデータ) (2025-01-30T18:59:36Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。