論文の概要: Qwen-Image-2.0 Technical Report
- arxiv url: http://arxiv.org/abs/2605.10730v1
- Date: Mon, 11 May 2026 15:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.945321
- Title: Qwen-Image-2.0 Technical Report
- Title(参考訳): Qwen-Image-2.0テクニカルレポート
- Authors: Bing Zhao, Chenfei Wu, Deqing Li, Hao Meng, Jiahao Li, Jie Zhang, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kuan Cao, Kun Yan, Liang Peng, Lihan Jiang, Niantong Li, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiao Xu, Xiaoyue Chen, Xihua Wang, Yan Shu, Yanran Zhang, Yi Wang, Yilei Chen, Ying Ba, Yixian Xu, Yujia Wu, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhendong Wang, Zihao Liu, Zikai Zhou, An Yang, Chen Cheng, Chenxu Lv, Dayiheng Liu, Fan Zhou, Hantian Xiong, Hongzhu Shi, Hu Wei, Huihong Zhao, Ivy Liu, Jianwei Zhang, Jiawei Zhang, Kai Chen, Kang He, Levon Xue, Lin Qu, Linhan Tang, Luwen Feng, Minggang Wu, Minmin Sun, Na Ni, Rui Men, Shuai Bai, Sishou Zheng, Tao Lan, Tianqi Zhang, Tingkun Wen, Wei Wang, Weixu Qiao, Weiyi Lu, Wenmeng Zhou, Xiaodong Deng, Xiaoxiao Xu, Xinlei Fang, Xionghui Chen, Yanan Wang, Yang Fan, Yichang Zhang, Yixuan Xu, Yu Wu, Zhiyuan Ma, Zhizhi Cai,
- Abstract要約: Qwen-Image-2.0は、Omni対応の画像生成基盤モデルである。
単一のフレームワーク内で高忠実度生成と正確な画像編集を統一する。
Qwen-Image-2.0 は、生成と編集の両方において、以前の Qwen-Image モデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 121.60016333754231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Qwen-Image-2.0, an omni-capable image generation foundation model that unifies high-fidelity generation and precise image editing within a single framework. Despite recent progress, existing models still struggle with ultra-long text rendering, multilingual typography, high-resolution photorealism, robust instruction following, and efficient deployment, especially in text-rich and compositionally complex scenarios. Qwen-Image-2.0 addresses these challenges by coupling Qwen3-VL as the condition encoder with a Multimodal Diffusion Transformer for joint condition-target modeling, supported by large-scale data curation and a customized multi-stage training pipeline. This enables strong multimodal understanding while preserving flexible generation and editing capabilities. The model supports instructions of up to 1K tokens for generating text-rich content such as slides, posters, infographics, and comics, while significantly improving multilingual text fidelity and typography. It also enhances photorealistic generation with richer details, more realistic textures, and coherent lighting, and follows complex prompts more reliably across diverse styles. Extensive human evaluations show that Qwen-Image-2.0 substantially outperforms previous Qwen-Image models in both generation and editing, marking a step toward more general, reliable, and practical image generation foundation models.
- Abstract(参考訳): Qwen-Image-2.0は、単一のフレームワーク内で高忠実度生成と正確な画像編集を統一する、オールニ対応の画像生成基盤モデルである。
近年の進歩にもかかわらず、既存のモデルはテキストレンダリング、多言語タイポグラフィー、高解像度のフォトリアリズム、ロバストなインストラクション追従、効率的な展開、特にテキストリッチで複雑なシナリオで苦戦している。
Qwen-Image-2.0は、Qwen3-VLを条件エンコーダとして結合し、大規模データキュレーションとカスタマイズされたマルチステージトレーニングパイプラインをサポートする、ジョイント条件-ターゲットモデリングのためのマルチモーダル拡散変換器を提供する。
これにより、柔軟な生成と編集機能を保持しながら、強力なマルチモーダル理解が可能になる。
このモデルは、スライド、ポスター、インフォグラフィック、コミックなどのテキストリッチなコンテンツを生成するための最大1Kトークンの命令をサポートし、多言語テキストの忠実度とタイポグラフィーを大幅に改善する。
また、よりリッチなディテール、よりリアルなテクスチャ、コヒーレントな照明でフォトリアリスティック・ジェネレーションを強化し、多様なスタイルでより確実に複雑なプロンプトに従う。
Qwen-Image-2.0は、画像生成と編集の両方において、従来のQwen-Imageモデルよりも大幅に優れており、より汎用的で信頼性があり、実用的な画像生成基盤モデルへの一歩であることを示している。
関連論文リスト
- Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models [76.68654868991517]
スライドや文書の段落などの画像中の長文は、現在の生成モデルにとって大きな課題である。
詳細なシーンテキストの特徴をキャプチャするために最適化された新しいテキスト中心のバイナリトークンーを導入します。
モデルNameは,高画質の長文画像を前例のない忠実度で生成するマルチモーダル自己回帰モデルである。
論文 参考訳(メタデータ) (2025-03-26T03:44:25Z) - Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal
Guidance [40.488455270651684]
我々は,シンプルかつ複雑なシーン画像生成を統一する,シンプルで効果的なアプローチ,すなわちUPaintingを提案する。
UPaintingは、事前訓練された画像テキストマッチングモデルからテキスト条件拡散モデルにクロスモーダルガイダンスを統合する。
UPaintingは、単純なシーンと複雑なシーンの両方において、キャプションの類似性と画像の忠実さという点で、他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-10-28T10:07:25Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。