論文の概要: DuoGen: Towards General Purpose Interleaved Multimodal Generation
- arxiv url: http://arxiv.org/abs/2602.00508v2
- Date: Tue, 03 Feb 2026 02:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.830829
- Title: DuoGen: Towards General Purpose Interleaved Multimodal Generation
- Title(参考訳): DuoGen: 汎用インターリーブマルチモーダルジェネレーションを目指して
- Authors: Min Shi, Xiaohui Zeng, Jiannan Huang, Yin Cui, Francesco Ferroni, Jialuo Li, Shubham Pachori, Zhaoshuo Li, Yogesh Balaji, Haoxiang Wang, Tsung-Yi Lin, Xiao Fu, Yue Zhao, Chieh-Yun Chen, Ming-Yu Liu, Humphrey Shi,
- Abstract要約: DuoGenは汎用的なインターリーブ生成フレームワークで、データキュレーション、アーキテクチャ設計、評価に対処する。
我々は、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話を組み合わせることで、大規模で高品質な命令チューニングデータセットを構築する。
2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
- 参考スコア(独自算出の注目度): 65.13479486098419
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interleaved multimodal generation enables capabilities beyond unimodal generation models, such as step-by-step instructional guides, visual planning, and generating visual drafts for reasoning. However, the quality of existing interleaved generation models under general instructions remains limited by insufficient training data and base model capacity. We present DuoGen, a general-purpose interleaved generation framework that systematically addresses data curation, architecture design, and evaluation. On the data side, we build a large-scale, high-quality instruction-tuning dataset by combining multimodal conversations rewritten from curated raw websites, and diverse synthetic examples covering everyday scenarios. Architecturally, DuoGen leverages the strong visual understanding of a pretrained multimodal LLM and the visual generation capabilities of a diffusion transformer (DiT) pretrained on video generation, avoiding costly unimodal pretraining and enabling flexible base model selection. A two-stage decoupled strategy first instruction-tunes the MLLM, then aligns DiT with it using curated interleaved image-text sequences. Across public and newly proposed benchmarks, DuoGen outperforms prior open-source models in text quality, image fidelity, and image-context alignment, and also achieves state-of-the-art performance on text-to-image and image editing among unified generation models. Data and code will be released at https://research.nvidia.com/labs/dir/duogen/.
- Abstract(参考訳): インターリーブされたマルチモーダル生成は、ステップバイステップの指導ガイド、ビジュアルプランニング、推論のためのビジュアルドラフトの生成など、一様生成モデルを超えた機能を可能にする。
しかし,既存のインターリーブ世代モデルの品質は,トレーニングデータやベースモデル容量の不足によって制限されている。
データキュレーション、アーキテクチャ設計、評価を体系的に扱う汎用インターリーブ生成フレームワークであるDuoGenを提案する。
データ側では、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話と、日々のシナリオをカバーする多様な合成例を組み合わせることで、大規模で高品質なインストラクションチューニングデータセットを構築します。
アーキテクチャ的には、DuoGenは、事前訓練されたマルチモーダルLLMの強い視覚的理解と、ビデオ生成に事前訓練された拡散トランスフォーマー(DiT)の視覚的生成能力を活用し、コストがかかる不定型事前学習を回避し、柔軟なベースモデル選択を可能にする。
2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
公開および新たに提案されたベンチマークを通じて、DuoGenは、テキスト品質、画像の忠実度、画像-テキストアライメントにおいて、以前のオープンソースモデルよりも優れており、また、統一された生成モデル間で、テキスト-画像および画像編集の最先端のパフォーマンスも達成している。
データとコードはhttps://research.nvidia.com/labs/dir/duogen/.comで公開される。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。
自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。
Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - WeGen: A Unified Model for Interactive Multimodal Generation as We Chat [51.78489661490396]
マルチモーダル生成と理解を統合するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
論文 参考訳(メタデータ) (2025-03-03T02:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。