論文の概要: Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations
- arxiv url: http://arxiv.org/abs/2507.03304v1
- Date: Fri, 04 Jul 2025 05:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.666994
- Title: Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations
- Title(参考訳): 統一表現によるブリッジングドメイン一般化とマルチモーダルドメイン一般化
- Authors: Hai Huang, Yan Xia, Sashuai Zhou, Hanting Wang, Shulei Wang, Zhou Zhao,
- Abstract要約: ドメイン一般化(DG)は、ソースドメインのみをトレーニングすることで、目に見えない、あるいは分散的にシフトしたターゲットドメインにおけるモデルの堅牢性を高めることを目的としている。
マルチモーダル・ドメイン・ジェネリゼーション(MMDG)における重要な課題は、マルチモーダル・ソースで訓練されたモデルが、同じモダリティ・セット内の未確認対象の分布に一般化できるようにすることである。
我々は、統一表現を利用して異なるペアのモダリティをマッピングする新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 43.07575348801021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain Generalization (DG) aims to enhance model robustness in unseen or distributionally shifted target domains through training exclusively on source domains. Although existing DG techniques, such as data manipulation, learning strategies, and representation learning, have shown significant progress, they predominantly address single-modal data. With the emergence of numerous multi-modal datasets and increasing demand for multi-modal tasks, a key challenge in Multi-modal Domain Generalization (MMDG) has emerged: enabling models trained on multi-modal sources to generalize to unseen target distributions within the same modality set. Due to the inherent differences between modalities, directly transferring methods from single-modal DG to MMDG typically yields sub-optimal results. These methods often exhibit randomness during generalization due to the invisibility of target domains and fail to consider inter-modal consistency. Applying these methods independently to each modality in the MMDG setting before combining them can lead to divergent generalization directions across different modalities, resulting in degraded generalization capabilities. To address these challenges, we propose a novel approach that leverages Unified Representations to map different paired modalities together, effectively adapting DG methods to MMDG by enabling synchronized multi-modal improvements within the unified space. Additionally, we introduce a supervised disentanglement framework that separates modal-general and modal-specific information, further enhancing the alignment of unified representations. Extensive experiments on benchmark datasets, including EPIC-Kitchens and Human-Animal-Cartoon, demonstrate the effectiveness and superiority of our method in enhancing multi-modal domain generalization.
- Abstract(参考訳): ドメイン一般化(DG)は、ソースドメインのみをトレーニングすることで、目に見えない、あるいは分散的にシフトしたターゲットドメインにおけるモデルの堅牢性を高めることを目的としている。
データ操作、学習戦略、表現学習といった既存のDG技術は大きな進歩を見せているが、それらは主に単一モーダルデータに対処している。
多数のマルチモーダルデータセットの出現とマルチモーダルタスクの需要の増加に伴い、マルチモーダル領域一般化(MMDG)における重要な課題が出現した。
モダリティに固有の違いがあるため、シングルモーダルDGからMDDGへの直接移動法は、通常、準最適結果をもたらす。
これらの手法は、対象領域の可視性のために一般化中にランダム性を示すことが多く、モーダル間の整合性を考慮することができない。
これらの手法をMDDG設定の各モードに独立に適用することで、異なるモードにわたる異なる一般化方向を導出し、結果として一般化能力は低下する。
これらの課題に対処するために,統一表現を利用して異なるペアのモダリティをマッピングし,DG法をMDDGに効果的に適用する手法を提案する。
さらに、モーダル一般情報とモーダル固有情報とを分離し、統一表現のアライメントをさらに強化する教師付きアンタングル化フレームワークを導入する。
EPIC-KitchensやHuman-Animal-Cartoonなど,ベンチマークデータセットの大規模な実験により,マルチモーダル領域の一般化の促進における本手法の有効性と優位性を実証した。
関連論文リスト
- Generative Classifier for Domain Generalization [84.92088101715116]
ドメインの一般化は、分散シフトに対するコンピュータビジョンモデルの一般化性を目的としている。
生成駆動型ドメイン一般化(GCDG)を提案する。
GCDGは3つの重要なモジュールから構成される: 異種性学習(HLC)、純粋相関(SCB)、横成分バランス(DCB)。
論文 参考訳(メタデータ) (2025-04-03T04:38:33Z) - Multisource Collaborative Domain Generalization for Cross-Scene Remote Sensing Image Classification [57.945437355714155]
クロスシーン画像分類は, 異なる分布領域のアノテート領域に, 地中物質の事前の知識を伝達することを目的としている。
既存のアプローチでは、未確認のターゲットドメインへの単一ソースドメインの一般化に重点を置いている。
マルチソースリモートセンシングデータの均一性と不均一性特性に基づく,新しいマルチソース協調型ドメイン一般化フレームワーク(MS-CDG)を提案する。
論文 参考訳(メタデータ) (2024-12-05T06:15:08Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - Learning to Diversify for Single Domain Generalization [46.35670520201863]
ドメイン一般化(DG)は、複数のソース(トレーニング)ドメインで訓練されたモデルを、分散的に異なるターゲット(テスト)ドメインに一般化することを目的としている。
本稿では、より現実的で困難なシナリオ、すなわちSingle-DG(Single-DG)について考察する。
このシナリオでは、限られた多様性は、目に見えないターゲット領域上のモデル一般化を危険にさらす可能性がある。
そこで本研究では,ソースコードに相補的な多種多様な分布の画像を合成することにより,モデルの一般化能力を高めるためのスタイル補完モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-26T12:04:32Z) - Dual Distribution Alignment Network for Generalizable Person
Re-Identification [174.36157174951603]
ドメイン一般化(DG)は、人物再識別(Re-ID)を扱うための有望なソリューションとして機能する
本稿では、複数のソースドメインの分布を選択的に整列させることにより、この問題に対処するDual Distribution Alignment Network(DDAN)を提案する。
大規模なDomain Generalization Re-ID(DG Re-ID)ベンチマークでDDANを評価した。
論文 参考訳(メタデータ) (2020-07-27T00:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。