Fugu-MT 論文翻訳(概要): SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization

論文の概要: SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization

arxiv url: http://arxiv.org/abs/2310.19795v1
Date: Mon, 30 Oct 2023 17:58:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 18:43:24.574393
Title: SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization
Title（参考訳）: SimMMDG: マルチモーダルドメイン一般化のためのシンプルで効果的なフレームワーク
Authors: Hao Dong, Ismail Nejjar, Han Sun, Eleni Chatzi, Olga Fink
Abstract要約: SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
参考スコア（独自算出の注目度）: 13.456240733175767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In real-world scenarios, achieving domain generalization (DG) presents significant challenges as models are required to generalize to unknown target distributions. Generalizing to unseen multi-modal distributions poses even greater difficulties due to the distinct properties exhibited by different modalities. To overcome the challenges of achieving domain generalization in multi-modal scenarios, we propose SimMMDG, a simple yet effective multi-modal DG framework. We argue that mapping features from different modalities into the same embedding space impedes model generalization. To address this, we propose splitting the features within each modality into modality-specific and modality-shared components. We employ supervised contrastive learning on the modality-shared features to ensure they possess joint properties and impose distance constraints on modality-specific features to promote diversity. In addition, we introduce a cross-modal translation module to regularize the learned features, which can also be used for missing-modality generalization. We demonstrate that our framework is theoretically well-supported and achieves strong performance in multi-modal DG on the EPIC-Kitchens dataset and the novel Human-Animal-Cartoon (HAC) dataset introduced in this paper. Our source code and HAC dataset are available at https://github.com/donghao51/SimMMDG.
Abstract（参考訳）: 実世界のシナリオでは、ドメイン一般化(DG)を達成するには、未知のターゲット分布に一般化するモデルが必要であるため、大きな課題が提示される。未知のマルチモーダル分布への一般化は、異なるモダリティによって示される異なる性質のためにさらに困難をもたらす。マルチモーダルシナリオにおけるドメイン一般化の課題を克服するために,単純かつ効果的なマルチモーダルdgフレームワークであるsimmmdgを提案する。異なるモダリティから同じ埋め込み空間へのマッピング機能はモデルの一般化を妨げると論じている。これに対処するために、各モダリティ内の機能をモダリティ固有のコンポーネントとモダリティ共有コンポーネントに分割することを提案する。我々は,モダリティ共有特徴に対する教師付きコントラスト学習を用いて,共同性を確保し,多様性を促進するためにモダリティ固有の特徴に距離制約を課す。さらに,学習された機能を正規化するクロスモーダル翻訳モジュールを導入し,欠落モダリティ一般化にも利用できる。本稿では,EPIC-KitchensデータセットとHuman-Animal-Cartoon(HAC)データセットを用いたマルチモーダルDGを理論的に支持し,高い性能を実現していることを示す。私たちのソースコードとhacデータセットはhttps://github.com/donghao51/simmmdgで利用可能です。

関連論文リスト

Bridging Domain Generalization to Multimodal Domain Generalization via Unified Representations [43.07575348801021]
ドメイン一般化(DG)は、ソースドメインのみをトレーニングすることで、目に見えない、あるいは分散的にシフトしたターゲットドメインにおけるモデルの堅牢性を高めることを目的としている。マルチモーダル・ドメイン・ジェネリゼーション(MMDG)における重要な課題は、マルチモーダル・ソースで訓練されたモデルが、同じモダリティ・セット内の未確認対象の分布に一般化できるようにすることである。我々は、統一表現を利用して異なるペアのモダリティをマッピングする新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-07-04T05:17:32Z)
Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics [46.79459036259515]
実世界のデータのリッチでマルチモーダルな性質を考えると、これは大きな制限であると言えるでしょう。 GRモデルが特に異なるモダリティに敏感であることを明らかにするとともに,有効なGRを実現する上での課題について検討する。 MGR-LF++は、異なるモダリティを表すために、対照的なモダリティアライメントと特別なトークンを利用する拡張レイトフュージョンフレームワークである。
論文参考訳（メタデータ） (2025-03-30T06:24:43Z)
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [43.5468667825864]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。 1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文参考訳（メタデータ） (2025-01-30T18:59:36Z)
Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文参考訳（メタデータ） (2024-12-24T08:38:35Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision [9.03028904066824]
本稿では,マルチモーダルなオープンセット・ドメイン・ジェネリゼーションを実現するための新しいアプローチを提案する。本稿では,マルチモーダルな自己教師型プリテキストタスクであるMasked Cross-modal TranslationとMultimodal Jigsaw Puzzlesを提案する。我々は、特に対象ドメインからのラベルなしデータが利用可能なシナリオにおいて、マルチモーダルなオープンセットドメイン適応問題にも取り組みます。
論文参考訳（メタデータ） (2024-07-01T17:59:09Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。 MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文参考訳（メタデータ） (2024-01-25T02:25:23Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文参考訳（メタデータ） (2022-11-02T07:42:48Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
A Novel Unified Conditional Score-based Generative Framework for Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。 UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。 BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文参考訳（メタデータ） (2022-07-07T16:57:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。