論文の概要: LatentUMM: Dual Latent Alignment for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.17766v1
- Date: Mon, 18 May 2026 02:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.601274
- Title: LatentUMM: Dual Latent Alignment for Unified Multimodal Models
- Title(参考訳): LatentUMM: 統一マルチモーダルモデルのためのデュアル潜在アライメント
- Authors: Yinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、共有潜在空間を学習することにより、理解と生成の両方において強力な性能を達成する。
このフレームワークは、拡張された共有潜在空間を構築し、変換を明示的に整列させ、モダル間の整合性を改善する。
実験により、LatentUMMは様々なアーキテクチャにおけるマルチモーダル一貫性を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 17.500776988586072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、共有潜在空間を学習することで、理解と生成の両方において強力な性能を達成するが、これらの2つの機能の間には機能的不整合がしばしば現れる。
この問題は、共有表現の欠如からではなく、潜在空間の内外にマップされる変換間の明示的なアライメントが欠如していることによるものである。
その結果、生成と再符号化は矛盾した軌道を辿り、モダリティ遷移の下で意味的なドリフトをもたらす。
本研究では,これらの変換を明示的に整合させ,相互の整合性を改善するために,拡張された共有潜在空間を構築するフレームワークであるLatentUMMを提案する。
latentUMMは2つのステージから構成される。
クロスモーダルアライメントは、より強力な埋め込みモデルを使用して構造化されたクロスモーダルセマンティクスを課し、一方、デュアルキャパシティアライメントは、生成と再エンコーディングの下で双方向の一貫性を強制する。
第二に、潜時力学の安定化は確率的潜時ロールアウトと選好最適化を通じてロバスト性を改善し、セマンティックな一貫性をよりよく維持する軌道を好む。
実験により、LatentUMMは様々なアーキテクチャにおけるマルチモーダル一貫性を一貫して改善することが示された。
コードはhttps://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMMで入手できる。
関連論文リスト
- PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文 参考訳(メタデータ) (2026-04-16T01:21:14Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model [18.19558762805031]
本稿では,複数モードの状態チェーンを結合し,モード内状態プロセスの独立性を維持した結合型SSMモデルを提案する。
CMU-EI,CH-SIMS,CH-SIMSV2のマルチドメイン入力による実験により,本モデルの有効性が検証された。
その結果, 結合マンバモデルではマルチモーダル核融合が可能であることがわかった。
論文 参考訳(メタデータ) (2024-05-28T09:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。