論文の概要: UniFusion: Vision-Language Model as Unified Encoder in Image Generation
- arxiv url: http://arxiv.org/abs/2510.12789v1
- Date: Tue, 14 Oct 2025 17:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.439611
- Title: UniFusion: Vision-Language Model as Unified Encoder in Image Generation
- Title(参考訳): UniFusion:画像生成における統一エンコーダとしてのビジョンランゲージモデル
- Authors: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale,
- Abstract要約: We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision- language model (VLM) that serve as an unified multimodal encoder。
LAPは、VLMから編集の鍵となる拡散モデルへの視覚情報の生成と忠実な伝達のために、テキストイメージアライメントにおいて、他の浅層融合アーキテクチャよりも優れていることを示す。
本稿では,VLMが生成するテキストトークンにのみ拡散変換器(DiT)を条件として,フレキシブル推論を用いたVLM-Enabled Rewriting Injectionを提案する。
- 参考スコア(独自算出の注目度): 12.811191961286852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
- Abstract(参考訳): 近年の視覚生成の進歩は目覚ましいが、既存のアーキテクチャの多くは画像やテキストのエンコーダに依存している。
この分離は拡散モデルのクロスモーダル推論と知識伝達を行う能力を制約する。
このギャップを埋める以前の試みでは、VLMからの最後のレイヤ情報を使用したり、複数のビジュアルエンコーダを使用したり、テキストと画像の生成に共同で大規模な統一モデルを訓練したりすることが多かった。
UniFusionのコアとなるのはLayerwise Attention Pooling(LAP)メカニズムで、フリーズされたVLMのテキストとビジュアルトークンから高レベルのセマンティクスと低レベルの詳細の両方を抽出し、拡散生成モデルを条件とする。
LAPはテキストイメージアライメントにおいて、VLMから編集の鍵となる拡散モデルへの視覚情報の生成と忠実な転送のために、他の浅層融合アーキテクチャよりも優れていることを示す。
本稿では,VLMが生成するテキストトークンにのみ拡散変換器(DiT)を条件として,フレキシブル推論を用いたVLM-Enabled Rewriting Injectionを提案する。
VERIFIは条件分布のアライメントとVLMの推論能力を組み合わせることで、推論時の能力と柔軟性を向上させる。
さらに、編集タスクの微調整は、生成のためのテキストイメージアライメントを改善するだけでなく、モダリティ間の知識伝達を示すだけでなく、膨大な一般化能力を示す。
単一画像編集の訓練において、ゼロショットは複数の画像参照に一般化され、UniFusionの統一エンコーダ設計がさらに動機付けられる。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Omni-Video: Democratizing Unified Video Understanding and Generation [13.616454543808798]
本報告では,映像理解,生成,および命令ベースの編集のための効率的かつ効果的な統合フレームワークであるOmni-Videoについて述べる。
我々の重要な洞察は、拡散デコーダの入力として使用される連続的な視覚的手がかりを生成するために、既存のマルチモーダル大言語モデル(MLLM)を教えることである。
統合ビデオモデリングシステムの可能性を完全に解き明かすため,いくつかの技術的改善を取り入れた。
論文 参考訳(メタデータ) (2025-07-08T16:02:16Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。
共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。
テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:59:51Z) - Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。