論文の概要: Exploring MLLM-Diffusion Information Transfer with MetaCanvas
- arxiv url: http://arxiv.org/abs/2512.11464v1
- Date: Fri, 12 Dec 2025 11:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.739277
- Title: Exploring MLLM-Diffusion Information Transfer with MetaCanvas
- Title(参考訳): MetaCanvasを用いたMLLM拡散情報伝達の探索
- Authors: Han Lin, Xichen Pan, Ziqi Huang, Ji Hou, Jialiang Wang, Weifeng Chen, Zecheng He, Felix Juefei-Xu, Junzhe Sun, Zhipeng Fan, Ali Thabet, Mohit Bansal, Chu Wang,
- Abstract要約: 本稿では,MLLMの理性と計画を直接空間的およびマルチモーダルな潜在空間で行う軽量なフレームワークを提案する。
テキスト・ツー・イメージ生成,テキスト・イメージ・ツー・ビデオ生成,画像・映像属性の編集,テキスト・ツー・イメージ生成など6つの視覚的タスクにまたがって評価を行った。
- 参考スコア(独自算出の注目度): 66.28602082523464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning has rapidly advanced visual understanding, largely via multimodal large language models (MLLMs) that use powerful LLMs as cognitive cores. In visual generation, however, these powerful core models are typically reduced to global text encoders for diffusion models, leaving most of their reasoning and planning ability unused. This creates a gap: current multimodal LLMs can parse complex layouts, attributes, and knowledge-intensive scenes, yet struggle to generate images or videos with equally precise and structured control. We propose MetaCanvas, a lightweight framework that lets MLLMs reason and plan directly in spatial and spatiotemporal latent spaces and interface tightly with diffusion generators. We empirically implement MetaCanvas on three different diffusion backbones and evaluate it across six tasks, including text-to-image generation, text/image-to-video generation, image/video editing, and in-context video generation, each requiring precise layouts, robust attribute binding, and reasoning-intensive control. MetaCanvas consistently outperforms global-conditioning baselines, suggesting that treating MLLMs as latent-space planners is a promising direction for narrowing the gap between multimodal understanding and generation.
- Abstract(参考訳): マルチモーダル学習は、認知コアとして強力なLLMを使用するマルチモーダル大言語モデル(MLLM)を通じて、急速に視覚的理解を深めている。
しかし、視覚生成においては、これらの強力なコアモデルは通常拡散モデルのためのグローバルテキストエンコーダに還元され、ほとんどの推論と計画能力は使われないままである。
現在のマルチモーダルLLMは複雑なレイアウトや属性、知識集約的なシーンを解析できますが、同じくらい正確で構造化されたコントロールで画像やビデオを生成するのに苦労しています。
MLLMの推論と計画を空間的および時空間的潜在空間で直接行なえる軽量なフレームワークであるMetaCanvasを提案する。
そこで我々は,MetaCanvasを3つの異なる拡散バックボーン上に実装し,テキスト・ツー・イメージ生成,テキスト・イメージ・ツー・ビデオ生成,画像・ビデオ編集,テキスト内ビデオ生成など6つのタスクで評価する。
MetaCanvasは、グローバルコンディショニングベースラインを一貫して上回り、MLLMを潜在空間プランナーとして扱うことは、マルチモーダル理解と生成の間のギャップを狭めるための有望な方向である、と示唆している。
関連論文リスト
- Graph-MLLM: Harnessing Multimodal Large Language Models for Multimodal Graph Learning [23.089644598166885]
MLLM(Multimodal Large Language Models)は、多様なモダリティを表現および理解する際、顕著な能力を示す。
構造化グラフ情報(マルチモーダルグラフ、MMG)とマルチモーダルを統合することは、ソーシャルネットワーク、ヘルスケア、レコメンデーションシステムといった現実のアプリケーションに不可欠である。
既存のMMG学習手法はMLLMの活用法に基づいて3つのパラダイムに分類される。
論文 参考訳(メタデータ) (2025-06-12T01:44:46Z) - Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM [21.967692616735196]
マルチモーダル大規模言語モデル (MLLM) は、人工知能の実現において重要なアプローチとして登場した。
MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
この研究は、MLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性の最初の実証である。
論文 参考訳(メタデータ) (2025-05-23T10:43:45Z) - Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。
既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。
本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文 参考訳(メタデータ) (2025-04-20T16:14:28Z) - Transfer between Modalities with MetaQueries [44.57406292414526]
自己回帰型マルチモーダルLLMと拡散モデルの間の効率的なインターフェースとして機能する,学習可能なクエリセットであるMetaQueriesを紹介する。
本手法は,2つの画像キャプチャデータと標準拡散目標のみを必要とする訓練を簡略化する。
本手法はフレキシブルであり,画像編集や主観的生成などの高度なアプリケーションに対して容易に命令調整を行うことができる。
論文 参考訳(メタデータ) (2025-04-08T17:58:47Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。