論文の概要: DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2602.12205v2
- Date: Fri, 13 Feb 2026 16:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 15:25:03.345893
- Title: DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing
- Title(参考訳): DeepGen 1.0: 画像生成と編集を改善する軽量統一マルチモーダルモデル
- Authors: Dianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang,
- Abstract要約: DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
- 参考スコア(独自算出の注目度): 67.77471070868852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current unified multimodal models for image generation and editing typically rely on massive parameter scales (e.g., >10B), entailing prohibitive training costs and deployment footprints. In this work, we present DeepGen 1.0, a lightweight 5B unified model that achieves comprehensive capabilities competitive with or surpassing much larger counterparts. To overcome the limitations of compact models in semantic understanding and fine-grained control, we introduce Stacked Channel Bridging (SCB), a deep alignment framework that extracts hierarchical features from multiple VLM layers and fuses them with learnable 'think tokens' to provide the generative backbone with structured, reasoning-rich guidance. We further design a data-centric training strategy spanning three progressive stages: (1) Alignment Pre-training on large-scale image-text pairs and editing triplets to synchronize VLM and DiT representations, (2) Joint Supervised Fine-tuning on a high-quality mixture of generation, editing, and reasoning tasks to foster omni-capabilities, and (3) Reinforcement Learning with MR-GRPO, which leverages a mixture of reward functions and supervision signals, resulting in substantial gains in generation quality and alignment with human preferences, while maintaining stable training progress and avoiding visual artifacts. Despite being trained on only ~50M samples, DeepGen 1.0 achieves leading performance across diverse benchmarks, surpassing the 80B HunyuanImage by 28% on WISE and the 27B Qwen-Image-Edit by 37% on UniREditBench. By open-sourcing our training code, weights, and datasets, we provide an efficient, high-performance alternative to democratize unified multimodal research.
- Abstract(参考訳): 現在の画像生成と編集のための統合マルチモーダルモデルは、通常、大規模なパラメータスケール(例: >10B)に依存し、禁止的なトレーニングコストとデプロイメントフットプリントを必要とする。
この作業では、より大規模な機能と競合する、あるいは超える包括的な機能を実現する軽量な5B統合モデルであるDeepGen 1.0を紹介します。
セマンティック理解と微粒化制御におけるコンパクトモデルの限界を克服するため,複数のVLM層から階層的特徴を抽出し,学習可能な「シンクトークン」でそれらを融合し,構造化された推論豊富なガイダンスを提供する,スタックドチャネルブリッジ(SCB)を導入している。
1)VLMとDiTの表現を同期するための大規模画像テキストペアと編集三部作の調整、(2)高品質な生成・編集・推論タスクの強化、(3)報酬関数と監視信号の混合を利用したMR-GRPOによる強化学習により、安定したトレーニングの進行と視覚的アーティファクトの回避を図りながら、生成品質と人間の嗜好との整合性を大幅に向上させる。
たった5000万のサンプルでトレーニングされているにもかかわらず、DeepGen 1.0は様々なベンチマークで主要なパフォーマンスを達成しており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
関連論文リスト
- DuoGen: Towards General Purpose Interleaved Multimodal Generation [65.13479486098419]
DuoGenは汎用的なインターリーブ生成フレームワークで、データキュレーション、アーキテクチャ設計、評価に対処する。
我々は、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話を組み合わせることで、大規模で高品質な命令チューニングデータセットを構築する。
2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
論文 参考訳(メタデータ) (2026-01-31T04:35:15Z) - LightBagel: A Light-weighted, Double Fusion Framework for Unified Multimodal Understanding and Generation [48.02842078521973]
提案手法は, 生成と理解に特化して公開されているモデルを戦略的に融合させることにより, 競争性能をより効率的に得ることができることを示す。
我々のキーとなる設計は、ネットワーク全体にわたってマルチモーダルな自己注意ブロックをインターリーブしながら、元のブロックを保持することである。
たった35Bトークンでトレーニングすることで、このアプローチは複数のベンチマークで強力な結果が得られる。
論文 参考訳(メタデータ) (2025-10-27T02:59:57Z) - Skywork UniPic 2.0: Building Kontext Model with Online RL for Unified Multimodal Model [28.559525134847828]
We present UniPic2-SD3.5M-Kontext, which is that a state-of-the-art image generation and editing while seamlessly extended into an unified multimodal framework。
我々のアプローチは、SD3.5-Mediumのアーキテクチャ変更と、高品質なデータによる大規模事前トレーニングから始まります。
UniPic2-SD3.5M-Kontextは、生成パラメータが大幅に大きいモデルよりも強力な画像生成と編集能力を示している。
論文 参考訳(メタデータ) (2025-09-04T17:00:17Z) - MENTOR: Efficient Multimodal-Conditioned Tuning for Autoregressive Vision Generation Models [30.494968865008513]
最近のテキスト・ツー・イメージモデルは、正確な視覚制御、マルチモーダル入力のバランス、複雑な画像生成のための広範な訓練を必要とする。
自己回帰型マルチモーダル画像生成のための効率的なマルチモーダルコンディショニングのための新しいフレームワークであるMENTORを提案する。
本手法は,拡散法に比べて画像再構成精度,タスク適応性,トレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-07-13T10:52:59Z) - KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [63.13906424204078]
本稿では, 汎用的でコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。
モデルアーキテクチャでは、0.5Bのコンパクトなサイズでモデルを実装し、固定長の埋め込みを生成する。
トレーニングデータでは, プレトレーニング用20種, 微調整用100種, コントラスト蒸留用100種をキュレートする。
論文 参考訳(メタデータ) (2025-06-26T01:09:44Z) - BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。
画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。
革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文 参考訳(メタデータ) (2025-05-14T17:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。