論文の概要: Open-set Cross Modal Generalization via Multimodal Unified Representation
- arxiv url: http://arxiv.org/abs/2507.14935v1
- Date: Sun, 20 Jul 2025 12:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.134786
- Title: Open-set Cross Modal Generalization via Multimodal Unified Representation
- Title(参考訳): 多モーダル統一表現によるオープンセットクロスモーダル一般化
- Authors: Hai Huang, Yan Xia, Shulei Wang, Hanting Wang, Minghui Fang, Shengpeng Ji, Sashuai Zhou, Tao Jin, Zhou Zhao,
- Abstract要約: 本稿では,CMG(Cross Modal Generalization)をオープン環境に拡張する。
これは、以前のクローズドセットのクロスモーダル評価の限界に対処する。
提案するMICUは,細粒度マスキングマルチモーダルInfoNCEとCrossModal Unified Jigsaw Puzzlesの2つの重要なコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 40.283719790625646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper extends Cross Modal Generalization (CMG) to open-set environments by proposing the more challenging Open-set Cross Modal Generalization (OSCMG) task. This task evaluates multimodal unified representations in open-set conditions, addressing the limitations of prior closed-set cross-modal evaluations. OSCMG requires not only cross-modal knowledge transfer but also robust generalization to unseen classes within new modalities, a scenario frequently encountered in real-world applications. Existing multimodal unified representation work lacks consideration for open-set environments. To tackle this, we propose MICU, comprising two key components: Fine-Coarse Masked multimodal InfoNCE (FCMI) and Cross modal Unified Jigsaw Puzzles (CUJP). FCMI enhances multimodal alignment by applying contrastive learning at both holistic semantic and temporal levels, incorporating masking to enhance generalization. CUJP enhances feature diversity and model uncertainty by integrating modality-agnostic feature selection with self-supervised learning, thereby strengthening the model's ability to handle unknown categories in open-set tasks. Extensive experiments on CMG and the newly proposed OSCMG validate the effectiveness of our approach. The code is available at https://github.com/haihuangcode/CMG.
- Abstract(参考訳): 本稿では、より挑戦的なオープン・セット・クロス・モーダル・ジェネリゼーション(OSCMG)タスクを提案することにより、CMG(Cross Modal Generalization)をオープン・セット環境に拡張する。
このタスクは、オープンセット条件下でのマルチモーダル統一表現を評価し、以前のクローズドセットのクロスモーダル評価の限界に対処する。
OSCMGは、クロスモーダルな知識伝達だけでなく、実世界のアプリケーションで頻繁に発生するシナリオである新しいモダリティ内の未確認クラスへの堅牢な一般化も要求する。
既存のマルチモーダル統一表現作業は、オープンセット環境に対する考慮を欠いている。
そこで本研究では,MICUの2つの重要なコンポーネントとして,FCMI (Fin-Coarse Masked Multimodal InfoNCE) とCUJP (CrossModal Unified Jigsaw Puzzles) を提案する。
FCMIは、全体論的意味と時間的レベルのコントラスト学習を適用し、マスキングを取り入れて一般化を強化することで、マルチモーダルアライメントを強化する。
CUJPは、モダリティに依存しない特徴選択と自己教師付き学習を統合することにより、特徴の多様性とモデルの不確実性を向上し、オープンセットタスクにおいて未知のカテゴリを扱う能力を強化する。
CMGとOSCMGの大規模な実験により,本手法の有効性が検証された。
コードはhttps://github.com/haihuangcode/CMGで入手できる。
関連論文リスト
- Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision [9.03028904066824]
本稿では,マルチモーダルなオープンセット・ドメイン・ジェネリゼーションを実現するための新しいアプローチを提案する。
本稿では,マルチモーダルな自己教師型プリテキストタスクであるMasked Cross-modal TranslationとMultimodal Jigsaw Puzzlesを提案する。
我々は、特に対象ドメインからのラベルなしデータが利用可能なシナリオにおいて、マルチモーダルなオープンセットドメイン適応問題にも取り組みます。
論文 参考訳(メタデータ) (2024-07-01T17:59:09Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。