論文の概要: Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2511.22699v1
- Date: Thu, 27 Nov 2025 18:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.688416
- Title: Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
- Title(参考訳): Z画像:単一ストリーム拡散変換器を用いた高効率画像生成基礎モデル
- Authors: Z-Image Team, Huanqia Cai, Sihan Cao, Ruoyi Du, Peng Gao, Steven Hoi, Shijie Huang, Zhaohui Hou, Dengyang Jiang, Xin Jin, Liangchen Li, Zhen Li, Zhong-Yu Li, David Liu, Dongyang Liu, Junhan Shi, Qilong Wu, Feng Yu, Chi Zhang, Shifeng Zhang, Shilin Zhou,
- Abstract要約: Z-Imageは、"スケール・アット・オール・コスト"パラダイムに挑戦する効率的な基礎生成モデルである。
我々のモデルは、様々な分野において主要な競合相手に匹敵する、またはそれを上回るパフォーマンスを達成する。
当社のコード、ウェイト、オンラインデモを公開し、予算に優しい、最先端のジェネレーティブモデルの開発を奨励しています。
- 参考スコア(独自算出の注目度): 38.99742258165009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The landscape of high-performance image generation models is currently dominated by proprietary systems, such as Nano Banana Pro and Seedream 4.0. Leading open-source alternatives, including Qwen-Image, Hunyuan-Image-3.0 and FLUX.2, are characterized by massive parameter counts (20B to 80B), making them impractical for inference, and fine-tuning on consumer-grade hardware. To address this gap, we propose Z-Image, an efficient 6B-parameter foundation generative model built upon a Scalable Single-Stream Diffusion Transformer (S3-DiT) architecture that challenges the "scale-at-all-costs" paradigm. By systematically optimizing the entire model lifecycle -- from a curated data infrastructure to a streamlined training curriculum -- we complete the full training workflow in just 314K H800 GPU hours (approx. $630K). Our few-step distillation scheme with reward post-training further yields Z-Image-Turbo, offering both sub-second inference latency on an enterprise-grade H800 GPU and compatibility with consumer-grade hardware (<16GB VRAM). Additionally, our omni-pre-training paradigm also enables efficient training of Z-Image-Edit, an editing model with impressive instruction-following capabilities. Both qualitative and quantitative experiments demonstrate that our model achieves performance comparable to or surpassing that of leading competitors across various dimensions. Most notably, Z-Image exhibits exceptional capabilities in photorealistic image generation and bilingual text rendering, delivering results that rival top-tier commercial models, thereby demonstrating that state-of-the-art results are achievable with significantly reduced computational overhead. We publicly release our code, weights, and online demo to foster the development of accessible, budget-friendly, yet state-of-the-art generative models.
- Abstract(参考訳): 高性能画像生成モデルの展望は、現在Nano Banana ProやSeedream 4.0といったプロプライエタリなシステムによって支配されている。
Qwen-Image、Hunyuan-Image-3.0、FLUX.2といったオープンソースの代替製品は、膨大なパラメータ数(20Bから80B)が特徴であり、推論には実用的でなく、コンシューマグレードのハードウェアを微調整する。
このギャップに対処するために,スケーラブル単一ストリーム拡散変換器(S3-DiT)アーキテクチャ上に構築された効率的な6Bパラメータ基底生成モデルであるZ-Imageを提案する。
モデルライフサイクル全体(キュレートされたデータインフラストラクチャから合理化されたトレーニングカリキュラムまで)を体系的に最適化することで、トレーニングワークフロー全体をわずか314K H800 GPU時間(約630K)で完了します。
Z-Image-Turboは、エンタープライズグレードのH800 GPUでのサブ秒の推論遅延と、コンシューマグレードのハードウェア((16GB VRAM)との互換性を提供する。
さらに,我々のOmni-pre-trainingパラダイムは,印象的なインストラクションフォロー機能を備えた編集モデルであるZ-Image-Editの効率的なトレーニングを可能にする。
定性的かつ定量的な実験は、我々のモデルが様々な次元にわたる主要な競合相手に匹敵する、または上回る性能を達成することを実証している。
特に、Z-Imageは、フォトリアリスティックな画像生成とバイリンガルテキストレンダリングにおいて例外的な能力を示し、トップクラスの商用モデルと競合する結果を提供し、その結果、最先端の結果が計算オーバーヘッドを大幅に減らして達成可能であることを示す。
当社はコード、ウェイト、オンラインデモを公開し、アクセス可能で予算に優しい、最先端の生成モデルの開発を奨励しています。
関連論文リスト
- Home-made Diffusion Model from Scratch to Hatch [0.9383683724544296]
ホームメイド拡散モデル(Home-made Diffusion Model, HDM)は、消費者向けハードウェアのトレーニングに最適化された、効率的かつ強力なテキスト-画像拡散モデルである。
HDMは競争力のある1024x1024世代の品質を実現し、トレーニングコストは535-620ドルと極めて低い。
論文 参考訳(メタデータ) (2025-09-07T14:21:57Z) - OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs [24.046764908874703]
OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
論文 参考訳(メタデータ) (2024-12-12T17:14:58Z) - PixArt-$\alpha$: Fast Training of Diffusion Transformer for
Photorealistic Text-to-Image Synthesis [108.83343447275206]
本稿では,トランスフォーマーを用いたT2I拡散モデルであるPIXART-$alpha$について述べる。
最大1024pxまでの高解像度画像合成をサポートし、訓練コストが低い。
PIXART-$alpha$は画質、芸術性、セマンティックコントロールに優れていた。
論文 参考訳(メタデータ) (2023-09-30T16:18:00Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。