論文の概要: Cross-Modal-Domain Generalization Through Semantically Aligned Discrete Representations
- arxiv url: http://arxiv.org/abs/2605.12145v1
- Date: Tue, 12 May 2026 14:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.898308
- Title: Cross-Modal-Domain Generalization Through Semantically Aligned Discrete Representations
- Title(参考訳): 意味的アライズされた離散表現によるクロスモーダル・ドメインの一般化
- Authors: Souptik Sen, Raneen Younis, Zahra Ahmadi,
- Abstract要約: マルチモーダル学習は、様々な感覚源にまたがる情報の統合を目指している。
現在のアプローチは、モダリティ固有の構造とクロスモーダル一般化可能性のバランスをとるのに苦労している。
我々は、モダリティ固有のコードブック間のセマンティックコンセンサスを確立する新しいフレームワークであるCoDAARを紹介する。
- 参考スコア(独自算出の注目度): 4.67724003380452
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal learning seeks to integrate information across diverse sensory sources, yet current approaches struggle to balance cross-modal generalizability with modality-specific structure. Continuous (implicit) methods preserve fine-grained priors but render generalization challenging, while discrete (explicit) approaches enforce shared prototypes at the expense of modality specificity. We introduce CoDAAR (Cross-modal Discrete Alignment And Reconstruction), a novel framework that resolves this long-standing trade-off by establishing semantic consensus across modality-specific codebooks through index-level alignment. This design uniquely allows CoDAAR to preserve modality-unique structures while achieving generalizable cross-modal representations within a unified discrete space. CoDAAR combines two complementary mechanisms: Discrete Temporal Alignment (DTA), which enables fine-grained temporal quantization, and Cascading Semantic Alignment (CSA), which promotes progressive cross-modal semantic agreement. Together, they establish a competition-free unified representation space. Trained with self-supervised reconstruction objectives on paired multimodal sequences, CoDAAR demonstrates robust cross-modal and cross-domain generalization. Across Cross-Modal Generalization benchmarks, including event classification, localization, video segmentation, and cross-dataset transfer, CoDAAR achieves state-of-the-art performance, establishing a new paradigm for discrete and generalizable multimodal representation learning.
- Abstract(参考訳): マルチモーダル学習は、様々な感覚源にまたがる情報を統合しようとするが、現在のアプローチは、モダリティ固有の構造とクロスモーダル一般化性のバランスをとるのに苦労している。
連続的(単純)な手法は細粒度の先行を保ちながら一般化を困難にし、離散的(明示的)なアプローチはモダリティ特異性を犠牲にして共有プロトタイプを強制する。
CoDAAR(Cross-modal Discrete Alignment And Reconstruction)は、モダリティ固有のコードブック間のセマンティックコンセンサスを確立することで、この長年のトレードオフを解決する新しいフレームワークである。
この設計により、CoDAARは、統一離散空間内で一般化可能なクロスモーダル表現を達成しつつ、モダリティ・ユニク構造を保存することができる。
CoDAARは、微細な時間的量子化を可能にする離散時間的アライメント(DTA)と、プログレッシブなクロスモーダルなセマンティックアライメントを促進するカスケーディングセマンティックアライメント(CSA)の2つの相補的なメカニズムを組み合わせる。
同時に、競争自由統一表現空間を確立する。
CoDAARは、ペア化されたマルチモーダルシーケンスの自己教師型再構成目標を用いて、堅牢なクロスモーダルおよびクロスドメインの一般化を示す。
イベント分類、ローカライゼーション、ビデオセグメンテーション、およびデータセット転送を含むクロスモーダル一般化ベンチマーク全体において、CoDAARは最先端のパフォーマンスを達成し、離散的で一般化可能なマルチモーダル表現学習のための新しいパラダイムを確立する。
関連論文リスト
- Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文 参考訳(メタデータ) (2026-04-16T01:21:14Z) - CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning [10.210493389825116]
マルチモーダル学習は、複数のモーダルから共有情報とプライベート情報の両方をキャプチャすることを目的としている。
融合のための単一の潜在空間に全てのモダリティを投影する既存の手法は、しばしばマルチモーダルデータの非同期なマルチレベルセマンティック構造を見落としている。
本稿では,各モダリティの特徴を3段階のセマンティック階層に明示的に整理するクロスレベル共表現(CLCR)を提案する。
論文 参考訳(メタデータ) (2026-02-23T08:47:19Z) - Efficient Generalization via Multimodal Co-Training under Data Scarcity and Distribution Shift [0.6331016589903705]
マルチモーダルコトレーニングは、ラベル付きデータが制限された状況におけるモデル一般化を強化するように設計されている。
この枠組みの理論的基礎を考察し、ラベルなしデータの使用が一般化の著しい改善につながる条件を導出する。
我々は、初めてマルチモーダルなコトレーニングコンテキストにおいて、ラベルのないマルチモーダルデータを活用することで得られる利点を分解し、定量化する新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2025-10-08T20:13:17Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - CHARM: Collaborative Harmonization across Arbitrary Modalities for Modality-agnostic Semantic Segmentation [44.48226146116737]
Modality-Agnostic Semantic (MaSS) は入力モダリティの任意の組み合わせにまたがる堅牢なシーン理解の実現を目的としている。
我々は、モダリティに特有な利点を保ちつつ、暗黙的にコンテンツをアライメントする新しい補完学習フレームワークであるCHARMを提案する。
論文 参考訳(メタデータ) (2025-08-05T04:10:51Z) - Continual Cross-Modal Generalization [48.56694158680082]
クロスモーダル一般化は、マルチモーダル対から共有表現空間を学ぶことを目的としている。
本稿では,新たなモダリティを仲介者モダリティを介して共有コードブックに漸進的にマッピングする連続学習手法を提案する。
画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストによる実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-01T09:16:20Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。