論文の概要: X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation
- arxiv url: http://arxiv.org/abs/2503.06134v2
- Date: Sat, 22 Mar 2025 07:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:39.974176
- Title: X2I: Seamless Integration of Multimodal Understanding into Diffusion Transformer via Attention Distillation
- Title(参考訳): X2I:留意蒸留による拡散変圧器へのマルチモーダル理解のシームレス統合
- Authors: Jian Ma, Qirong Peng, Xu Guo, Chen Chen, Haonan Lu, Zhenyu Yang,
- Abstract要約: 本稿では,Diffusion Transformer (DiT) モデルに様々なモダリティを理解する能力を備えた X2I フレームワークを提案する。
X2Iは,マルチモーダル理解能力を有しながら,1%未満の性能低下を示した。
- 参考スコア(独自算出の注目度): 7.61087111021017
- License:
- Abstract: Text-to-image (T2I) models are well known for their ability to produce highly realistic images, while multimodal large language models (MLLMs) are renowned for their proficiency in understanding and integrating multiple modalities. However, currently there is no straightforward and efficient framework to transfer the multimodal comprehension abilities of MLLMs to T2I models to enable them to understand multimodal inputs. In this paper, we propose the X2I framework, which endows Diffusion Transformer (DiT) models with the capability to comprehend various modalities, including multilingual text, screenshot documents, images, videos, and audio. X2I is trained using merely 100K English corpus with 160 GPU hours. Building on the DiT teacher model, we adopt an innovative distillation method to extract the inference capabilities of the teacher model and design a lightweight AlignNet structure to serve as an intermediate bridge. Compared to the teacher model, X2I shows a decrease in performance degradation of less than 1\% while gaining various multimodal understanding abilities, including multilingual to image, image to image, image-text to image, video to image, audio to image, and utilizing creative fusion to enhance imagery. Furthermore, it is applicable for LoRA training in the context of image-text to image generation, filling a void in the industry in this area. We further design a simple LightControl to enhance the fidelity of instructional image editing. Finally, extensive experiments demonstrate the effectiveness, efficiency, multifunctionality, and transferability of our X2I. The open-source code and checkpoints for X2I can be found at the following link: https://github.com/OPPO-Mente-Lab/X2I.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、非常にリアルな画像を生成する能力で有名であるが、マルチモーダルな大規模言語モデル(MLLM)は、複数のモーダルの理解と統合の能力で有名である。
しかし、現在ではマルチモーダル入力を理解するためにMLLMのマルチモーダル理解能力をT2Iモデルに転送する、単純かつ効率的なフレームワークは存在しない。
本稿では,多言語テキスト,スクリーンショット文書,画像,ビデオ,音声など,さまざまなモダリティの理解が可能なDiffusion Transformer (DiT) モデルを提案する。
X2Iは160GPU時間でたった100Kの英語コーパスで訓練されている。
DiT教師モデルに基づいて,教師モデルの推論能力を抽出し,中間ブリッジとして機能する軽量なAlignNet構造を設計するための,革新的な蒸留手法を採用した。
教師モデルと比較して、X2Iは、画像への多言語的理解能力、画像への画像、画像への画像テキスト、画像へのビデオ、画像への音声、創造的融合の活用など、様々なマルチモーダル理解能力を得ながら、1\%未満の性能低下を示す。
さらに、画像テキストの文脈におけるLoRAトレーニングにも適用でき、この分野の業界における空白を埋めることができる。
さらに、インストラクショナル画像編集の忠実度を高めるために、簡単なLightControlを設計する。
最後に、X2Iの有効性、効率、多機能性、伝達性について広範な実験を行った。
X2Iのオープンソースコードとチェックポイントは以下のリンクで確認できる。
関連論文リスト
- InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following [26.457571615782985]
InstructAny2Pixは、ユーザが音声、画像、テキストを含む命令を使って入力画像を編集できるフレキシブルなマルチモーダル命令フォローシステムである。
本システムでは,命令誘導型編集タスクを複数実施できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T17:53:45Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - AltDiffusion: A Multilingual Text-to-Image Diffusion Model [4.534546889526814]
18の異なる言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。
具体的には,知識蒸留に基づいて,まず多言語テキストエンコーダを訓練する。
次に、事前訓練された英語のみの拡散モデルにプラグインし、2段階のスキーマでモデルを訓練し、多言語機能を強化する。
論文 参考訳(メタデータ) (2023-08-19T11:52:12Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。