論文の概要: Wan-Image: Pushing the Boundaries of Generative Visual Intelligence
- arxiv url: http://arxiv.org/abs/2604.19858v2
- Date: Thu, 23 Apr 2026 15:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.029534
- Title: Wan-Image: Pushing the Boundaries of Generative Visual Intelligence
- Title(参考訳): Wan-Image: ジェネレーティブ・ビジュアル・インテリジェンスの境界を押し上げる
- Authors: Chaojie Mao, Chen-Wei Xie, Chongyang Zhong, Haoyou Deng, Jiaxing Zhao, Jie Xiao, Jinbo Xing, Jingfeng Zhang, Jingren Zhou, Jingyi Zhang, Jun Dan, Kai Zhu, Kang Zhao, Keyu Yan, Minghui Chen, Pandeng Li, Shuangle Chen, Tong Shen, Yu Liu, Yue Jiang, Yulin Pan, Yuxiang Tuo, Zeyinzi Jiang, Zhen Han, Ang Wang, Bang Zhang, Baole Ai, Bin Wen, Boang Feng, Feiwu Yu, Gang Wang, Haiming Zhao, He Kang, Jianjing Xiang, Jianyuan Zeng, Jinkai Wang, Junjie Zhou, Ke Sun, Linqian Wu, Pei Gong, Pingyu Wu, Ruiwen Wu, Tongtong Su, Wenmeng Zhou, Wenting Shen, Wenyuan Yu, Xianjun Xu, Xiaoming Huang, Xiejie Shen, Xin Xu, Yan Kou, Yangyu Lv, Yifan Zhai, Yitong Huang, Yun Zheng, Yuntao Hong, Zhe Zhang, Zhicheng Zhang,
- Abstract要約: Wan-Imageは、パラダイムシフト画像生成モデルに設計された統合ビジュアル生成システムである。
大規模マルチモーダルデータスケーリング、体系的な微粒化アノテーションエンジン、強化学習データによって実現されている。
最終的にWan-Imageは、eコマース、エンターテイメント、教育、そして個人の生産性で視覚的コンテンツの創造に革命をもたらす。
- 参考スコア(独自算出の注目度): 86.08534008471356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Wan-Image, a unified visual generation system explicitly engineered to paradigm-shift image generation models from casual synthesizers into professional-grade productivity tools. While contemporary diffusion models excel at aesthetic generation, they frequently encounter critical bottlenecks in rigorous design workflows that demand absolute controllability, complex typography rendering, and strict identity preservation. To address these challenges, Wan-Image features a natively unified multi-modal architecture by synergizing the cognitive capabilities of large language models with the high-fidelity pixel synthesis of diffusion transformers, which seamlessly translates highly nuanced user intents into precise visual outputs. It is fundamentally powered by large-scale multi-modal data scaling, a systematic fine-grained annotation engine, and curated reinforcement learning data to surpass basic instruction following and unlock expert-level professional capabilities. These include ultra-long complex text rendering, hyper-diverse portrait generation, palette-guided generation, multi-subject identity preservation, coherent sequential visual generation, precise multi-modal interactive editing, native alpha-channel generation, and high-efficiency 4K synthesis. Across diverse human evaluations, Wan-Image exceeds Seedream 5.0 Lite and GPT Image 1.5 in overall performance, reaching parity with Nano Banana Pro in challenging tasks. Ultimately, Wan-Image revolutionizes visual content creation across e-commerce, entertainment, education, and personal productivity, redefining the boundaries of professional visual synthesis.
- Abstract(参考訳): 我々は、カジュアルシンセサイザーからプロ級生産性ツールへのパラダイムシフト画像生成モデルに明示的に設計された統合ビジュアル生成システムであるWan-Imageを提案する。
現代の拡散モデルは美的生成において優れているが、絶対的な制御性、複雑なタイポグラフィーレンダリング、厳密なアイデンティティ保存を必要とする厳密な設計ワークフローにおいて、しばしば重大なボトルネックに遭遇する。
これらの課題に対処するため、Wan-Imageは、大きな言語モデルの認知能力を高忠実な拡散変換器の画素合成と相乗化することにより、ネイティブに統一されたマルチモーダルアーキテクチャを特徴としている。
基本的には、大規模マルチモーダルデータスケーリング、体系的な微粒化アノテーションエンジン、および強化学習データを利用して、基礎的な命令を超越し、専門家レベルの専門的能力を解き放つ。
その中には、超長い複雑なテキストレンダリング、ハイパーディバースポートレート生成、パレット誘導生成、多目的アイデンティティ保存、コヒーレントな逐次視覚生成、正確なマルチモーダルインタラクティブ編集、ネイティブアルファチャネル生成、高効率4K合成が含まれる。
様々な人間の評価において、Wan-Image はSeedream 5.0 Lite と GPT Image 1.5 を上回り、Nano Banana Pro と同等の課題に到達した。
最終的にWan-Imageは、電子商取引、エンターテイメント、教育、および個人の生産性にまたがるビジュアルコンテンツの創造に革命をもたらし、プロのビジュアル合成の境界を再定義する。
関連論文リスト
- Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。
本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。
微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文 参考訳(メタデータ) (2025-06-12T06:37:34Z) - UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation [14.95468978198402]
OpenAIは強力なGPT-4oイメージモデルを導入した。
この知見にインスパイアされたUniWorld-V1は、強力な大言語モデルから抽出された意味的特徴に基づいて構築された統合生成フレームワークである。
論文 参考訳(メタデータ) (2025-06-03T17:59:33Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。