論文の概要: SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization
- arxiv url: http://arxiv.org/abs/2310.19795v1
- Date: Mon, 30 Oct 2023 17:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:43:24.574393
- Title: SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization
- Title(参考訳): SimMMDG: マルチモーダルドメイン一般化のためのシンプルで効果的なフレームワーク
- Authors: Hao Dong, Ismail Nejjar, Han Sun, Eleni Chatzi, Olga Fink
- Abstract要約: SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
- 参考スコア(独自算出の注目度): 13.456240733175767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world scenarios, achieving domain generalization (DG) presents
significant challenges as models are required to generalize to unknown target
distributions. Generalizing to unseen multi-modal distributions poses even
greater difficulties due to the distinct properties exhibited by different
modalities. To overcome the challenges of achieving domain generalization in
multi-modal scenarios, we propose SimMMDG, a simple yet effective multi-modal
DG framework. We argue that mapping features from different modalities into the
same embedding space impedes model generalization. To address this, we propose
splitting the features within each modality into modality-specific and
modality-shared components. We employ supervised contrastive learning on the
modality-shared features to ensure they possess joint properties and impose
distance constraints on modality-specific features to promote diversity. In
addition, we introduce a cross-modal translation module to regularize the
learned features, which can also be used for missing-modality generalization.
We demonstrate that our framework is theoretically well-supported and achieves
strong performance in multi-modal DG on the EPIC-Kitchens dataset and the novel
Human-Animal-Cartoon (HAC) dataset introduced in this paper. Our source code
and HAC dataset are available at https://github.com/donghao51/SimMMDG.
- Abstract(参考訳): 実世界のシナリオでは、ドメイン一般化(DG)を達成するには、未知のターゲット分布に一般化するモデルが必要であるため、大きな課題が提示される。
未知のマルチモーダル分布への一般化は、異なるモダリティによって示される異なる性質のためにさらに困難をもたらす。
マルチモーダルシナリオにおけるドメイン一般化の課題を克服するために,単純かつ効果的なマルチモーダルdgフレームワークであるsimmmdgを提案する。
異なるモダリティから同じ埋め込み空間へのマッピング機能はモデルの一般化を妨げると論じている。
これに対処するために、各モダリティ内の機能をモダリティ固有のコンポーネントとモダリティ共有コンポーネントに分割することを提案する。
我々は,モダリティ共有特徴に対する教師付きコントラスト学習を用いて,共同性を確保し,多様性を促進するためにモダリティ固有の特徴に距離制約を課す。
さらに,学習された機能を正規化するクロスモーダル翻訳モジュールを導入し,欠落モダリティ一般化にも利用できる。
本稿では,EPIC-KitchensデータセットとHuman-Animal-Cartoon(HAC)データセットを用いたマルチモーダルDGを理論的に支持し,高い性能を実現していることを示す。
私たちのソースコードとhacデータセットはhttps://github.com/donghao51/simmmdgで利用可能です。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision [9.03028904066824]
本稿では,マルチモーダルなオープンセット・ドメイン・ジェネリゼーションを実現するための新しいアプローチを提案する。
本稿では,マルチモーダルな自己教師型プリテキストタスクであるMasked Cross-modal TranslationとMultimodal Jigsaw Puzzlesを提案する。
我々は、特に対象ドメインからのラベルなしデータが利用可能なシナリオにおいて、マルチモーダルなオープンセットドメイン適応問題にも取り組みます。
論文 参考訳(メタデータ) (2024-07-01T17:59:09Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Cross-Modal Prototype based Multimodal Federated Learning under Severely
Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。
MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。
提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文 参考訳(メタデータ) (2024-01-25T02:25:23Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。