論文の概要: Divide and Conquer: Decoupled Representation Alignment for Multimodal World Models
- arxiv url: http://arxiv.org/abs/2605.01896v1
- Date: Sun, 03 May 2026 14:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.983002
- Title: Divide and Conquer: Decoupled Representation Alignment for Multimodal World Models
- Title(参考訳): ディバイドとコンカー:マルチモーダル世界モデルのための非結合表現アライメント
- Authors: Junyuan Xiao, Dingkang Liang, Xin Zhou, Yixuan Ye, Tongtong Su, Guangmo Yi, Bin Xia, Qiang Lyu, Shurui Shi, Jun Huang, Jianlou Si, Wenming Yang,
- Abstract要約: マルチモーダルビデオ生成に適した最初の表現アライメント手法であるM2$-REPAを提案する。
まず、拡散モデルの中間表現からモダリティ固有の特徴を分離し、それぞれ対応する専門的基礎モデルと整合させる。
本手法は, 視覚的品質と長期的整合性において, ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 45.592930731636386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging multi-modal world models attempt to jointly generate videos across diverse modalities (e.g., RGB, depth, and mask), yet they fail to fully exploit the rich priors of existing foundation models. We propose $M^2$-REPA, the first representation alignment method tailored for multi-modal video generation. Our key insight is that foundation models trained on different modality spaces naturally capture distinct domain-specific priors, acting as complementary "experts." Specifically, we first decouple modality-specific features from the diffusion model's intermediate representations, then align each with its corresponding expert foundation model. To this end, we design two synergistic objectives: a multi-modal representation alignment loss that enforces feature-to-expert matching, and a modality-specific decoupling regularization that encourages complementarity across different modalities. This design enables joint optimization, fully exploiting priors from multiple foundation models. Extensive experiments demonstrate that our method significantly outperforms baselines in visual quality and long-term consistency.
- Abstract(参考訳): 新興のマルチモーダルワールドモデルは、様々なモダリティ(例えば、RGB、深さ、マスク)で共同でビデオを生成しようとするが、既存のファンデーションモデルの豊富な先行を十分に活用することはできなかった。
マルチモーダルビデオ生成に適した最初の表現アライメント手法であるM^2$-REPAを提案する。
我々の重要な洞察は、異なるモダリティ空間で訓練された基礎モデルは自然に異なるドメイン固有の先行を捉え、補完的な「専門家」として振舞うことである。
具体的には、まず拡散モデルの中間表現からモダリティ固有の特徴を分離し、それぞれ対応する専門的基礎モデルと整合させる。
この目的のために,マルチモーダル・アライメント・アライメント・ロス(マルチモーダル・アライメント・アライメント・ロス)と,異なるモダリティ間の相補性を促進するモダリティ特異的デカップリング・正規化(モダリティ特異的デカップリング・正規化)という2つの相乗的目標を設計する。
この設計は、複数の基礎モデルから事前をフル活用して、共同最適化を可能にする。
広汎な実験により,本手法は視覚的品質と長期的整合性において,ベースラインを著しく上回っていることが示された。
関連論文リスト
- DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models [11.659303031631723]
DiveUpは、マルチVFMリレーショナルガイダンスを導入することで、単一モデル依存から脱却する新しいフレームワークである。
本稿では,局所的中心-質量場 (COM) として定式化され,固有幾何学的構造を抽出する普遍的関係特徴表現を提案する。
DiveUpは統一されたエンコーダに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-03-13T20:20:22Z) - Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach [42.970648490410504]
MGFM(Multimodal Graph Foundation Models)は、Multimodal-Attributed Graphs(MAG)におけるリッチなマルチモーダル情報の活用を可能にする。
本稿では,異なる粒度にまたがるモダリティの相互作用とアライメントを分離するために,Divide-and-Conquer戦略を用いた新しいフレームワークPLANETを提案する。
PLANETは,様々なグラフ中心およびマルチモーダル生成タスクにおいて,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-04T01:05:12Z) - Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge [16.958159611661813]
Latent Denoising Diffusion Bridge Model (LDDBM)は、モーダル翻訳のための汎用フレームワークである。
共用ラテント空間で演算することにより、任意のモード間のブリッジを、整列次元を必要とせずに学習する。
提案手法は任意のモダリティペアをサポートし,マルチビューから3次元形状生成,画像超解像,マルチビューシーン合成など,多様なMTタスクに強く依存する。
論文 参考訳(メタデータ) (2025-10-23T17:59:54Z) - Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models [54.196385799229006]
この調査は、従来のアプローチから基礎モデルへの進歩に関する、初めての包括的なレビューを提供する。
1)マルチモーダルドメイン適応,(2)マルチモーダルテスト時間適応,(3)マルチモーダルドメイン一般化,(4)マルチモーダルファンデーションモデルの助けを借りたドメイン適応と一般化,(5)マルチモーダルファンデーションモデルの適応。
論文 参考訳(メタデータ) (2025-01-30T18:59:36Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。