論文の概要: SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization
- arxiv url: http://arxiv.org/abs/2310.19795v1
- Date: Mon, 30 Oct 2023 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:43:24.574393
- Title: SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization
- Title(参考訳): SimMMDG: マルチモーダルドメイン一般化のためのシンプルで効果的なフレームワーク
- Authors: Hao Dong, Ismail Nejjar, Han Sun, Eleni Chatzi, Olga Fink
- Abstract要約: SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
- 参考スコア(独自算出の注目度): 13.456240733175767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world scenarios, achieving domain generalization (DG) presents
significant challenges as models are required to generalize to unknown target
distributions. Generalizing to unseen multi-modal distributions poses even
greater difficulties due to the distinct properties exhibited by different
modalities. To overcome the challenges of achieving domain generalization in
multi-modal scenarios, we propose SimMMDG, a simple yet effective multi-modal
DG framework. We argue that mapping features from different modalities into the
same embedding space impedes model generalization. To address this, we propose
splitting the features within each modality into modality-specific and
modality-shared components. We employ supervised contrastive learning on the
modality-shared features to ensure they possess joint properties and impose
distance constraints on modality-specific features to promote diversity. In
addition, we introduce a cross-modal translation module to regularize the
learned features, which can also be used for missing-modality generalization.
We demonstrate that our framework is theoretically well-supported and achieves
strong performance in multi-modal DG on the EPIC-Kitchens dataset and the novel
Human-Animal-Cartoon (HAC) dataset introduced in this paper. Our source code
and HAC dataset are available at https://github.com/donghao51/SimMMDG.
- Abstract(参考訳): 実世界のシナリオでは、ドメイン一般化(DG)を達成するには、未知のターゲット分布に一般化するモデルが必要であるため、大きな課題が提示される。
未知のマルチモーダル分布への一般化は、異なるモダリティによって示される異なる性質のためにさらに困難をもたらす。
マルチモーダルシナリオにおけるドメイン一般化の課題を克服するために,単純かつ効果的なマルチモーダルdgフレームワークであるsimmmdgを提案する。
異なるモダリティから同じ埋め込み空間へのマッピング機能はモデルの一般化を妨げると論じている。
これに対処するために、各モダリティ内の機能をモダリティ固有のコンポーネントとモダリティ共有コンポーネントに分割することを提案する。
我々は,モダリティ共有特徴に対する教師付きコントラスト学習を用いて,共同性を確保し,多様性を促進するためにモダリティ固有の特徴に距離制約を課す。
さらに,学習された機能を正規化するクロスモーダル翻訳モジュールを導入し,欠落モダリティ一般化にも利用できる。
本稿では,EPIC-KitchensデータセットとHuman-Animal-Cartoon(HAC)データセットを用いたマルチモーダルDGを理論的に支持し,高い性能を実現していることを示す。
私たちのソースコードとhacデータセットはhttps://github.com/donghao51/simmmdgで利用可能です。
関連論文リスト
- Cross-Modal Prototype based Multimodal Federated Learning under Severely
Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。
MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。
提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2024-01-25T02:25:23Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Compound Domain Generalization via Meta-Knowledge Encoding [55.22920476224671]
マルチモーダル分布を再正規化するために,スタイル駆動型ドメイン固有正規化(SDNorm)を導入する。
組込み空間における関係モデリングを行うために,プロトタイプ表現,クラスセントロイドを利用する。
4つの標準ドメイン一般化ベンチマークの実験により、COMENはドメインの監督なしに最先端のパフォーマンスを上回ることが判明した。
論文 参考訳(メタデータ) (2022-03-24T11:54:59Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。