論文の概要: Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision
- arxiv url: http://arxiv.org/abs/2407.01518v1
- Date: Mon, 1 Jul 2024 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:21:46.280575
- Title: Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision
- Title(参考訳): 自己スーパービジョンによるマルチモーダルオープンセット領域の一般化と適応に向けて
- Authors: Hao Dong, Eleni Chatzi, Olga Fink,
- Abstract要約: 本稿では,マルチモーダルなオープンセット・ドメイン・ジェネリゼーションを実現するための新しいアプローチを提案する。
本稿では,マルチモーダルな自己教師型プリテキストタスクであるMasked Cross-modal TranslationとMultimodal Jigsaw Puzzlesを提案する。
我々は、特に対象ドメインからのラベルなしデータが利用可能なシナリオにおいて、マルチモーダルなオープンセットドメイン適応問題にも取り組みます。
- 参考スコア(独自算出の注目度): 9.03028904066824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of open-set domain generalization (OSDG) involves recognizing novel classes within unseen domains, which becomes more challenging with multiple modalities as input. Existing works have only addressed unimodal OSDG within the meta-learning framework, without considering multimodal scenarios. In this work, we introduce a novel approach to address Multimodal Open-Set Domain Generalization (MM-OSDG) for the first time, utilizing self-supervision. To this end, we introduce two innovative multimodal self-supervised pretext tasks: Masked Cross-modal Translation and Multimodal Jigsaw Puzzles. These tasks facilitate the learning of multimodal representative features, thereby enhancing generalization and open-class detection capabilities. Additionally, we propose a novel entropy weighting mechanism to balance the loss across different modalities. Furthermore, we extend our approach to tackle also the Multimodal Open-Set Domain Adaptation (MM-OSDA) problem, especially in scenarios where unlabeled data from the target domain is available. Extensive experiments conducted under MM-OSDG, MM-OSDA, and Multimodal Closed-Set DG settings on the EPIC-Kitchens and HAC datasets demonstrate the efficacy and versatility of the proposed approach. Our source code is available at https://github.com/donghao51/MOOSA.
- Abstract(参考訳): オープンセット領域一般化(OSDG)の課題は、未確認領域内の新しいクラスを認識することである。
既存の作業は、マルチモーダルシナリオを考慮せずに、メタラーニングフレームワーク内のunimodal OSDGにのみ対応している。
本研究では,マルチモーダルなオープンセットドメイン一般化(MM-OSDG)を初めて取り上げ,自己スーパービジョンを活用した新しいアプローチを提案する。
この目的のために,Musked Cross-modal TranslationとMultimodal Jigsaw Puzzlesという,革新的なマルチモーダル自己教師型プリテキストタスクを導入する。
これらのタスクはマルチモーダルな代表的特徴の学習を容易にし、一般化とオープンクラス検出能力を向上する。
さらに,異なるモード間の損失のバランスをとるために,新しいエントロピー重み付け機構を提案する。
さらに、特に対象領域からのラベルなしデータが利用可能なシナリオにおいて、Multimodal Open-Set Domain Adaptation (MM-OSDA)問題にも取り組みます。
EPIC-KitchensおよびHACデータセットのMM-OSDG、MM-OSDA、Multimodal Closed-Set DG設定で行った大規模な実験は、提案手法の有効性と汎用性を示している。
ソースコードはhttps://github.com/donghao51/MOOSA.comで公開されています。
関連論文リスト
- COSMo: CLIP Talks on Open-Set Multi-Target Domain Adaptation [24.46473228191582]
マルチターゲットドメイン適応は、単一のソースドメインからドメイン不変情報を学習し、ラベルのない複数のターゲットドメインに適用する。
本稿では、ドメインに依存しないプロンプトをソースドメイン誘導型プロンプト学習を通じて学習する新しい手法であるCOSMoを紹介する。
我々の知る限りでは、COSMoはOpen-Set Multi-Target DAに対処する最初の方法である。
論文 参考訳(メタデータ) (2024-08-31T09:14:54Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - INDIGO: Intrinsic Multimodality for Domain Generalization [26.344372409315177]
マルチモーダル情報がどのように「本質的な」方法で活用され、システムが目に見えない領域の下で一般化されるかを検討する。
IntriNsic multimodality for DomaIn GeneralizatiOn (INDIGO)を提案する。
論文 参考訳(メタデータ) (2022-06-13T05:41:09Z) - A Novel Mix-normalization Method for Generalizable Multi-source Person
Re-identification [49.548815417844786]
人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。
モデルがソースドメインに過度に適合するため、教師付きモデルを任意の未確認領域に直接転送することは困難である。
ドメイン・アウェア・ミックス正規化(DMN)とドメイン・ウェア・センター正規化(DCR)からなるMixNormを提案する。
論文 参考訳(メタデータ) (2022-01-24T18:09:38Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。