論文の概要: HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer
- arxiv url: http://arxiv.org/abs/2605.11061v1
- Date: Mon, 11 May 2026 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.336604
- Title: HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer
- Title(参考訳): HiDream-O1-Image: Pixelレベル統一トランスを用いたネイティブ統一画像生成モデル
- Authors: Qi Cai, Jingwen Chen, Chengmin Gao, Zijian Gong, Yehao Li, Yingwei Pan, Yi Peng, Zhaofan Qiu, Kai Yu, Yiheng Zhang, Hao Ai, Siying Bai, Yang Chen, Zhihui Chen, Fengbin Gao, Ying Guo, Dong Li, Zhen Shen, Leilei Shi, Jing Wang, Siyu Wang, Yimeng Wang, Rui Zheng, Ting Yao, Tao Mei,
- Abstract要約: 画素空間拡散変換器を用いた統合生成基盤モデルであるHiDream-O1-Imageを提案する。
HiDream-O1-Imageは、原画像ピクセル、テキストトークン、タスク固有の条件を単一の共有トークン空間にマッピングすることにより、マルチモーダル入力の構造的統一を実現する。
実験により、HiDream-O1-Imageは、テキスト・ツー・イメージ生成、命令ベースの編集、主観的パーソナライゼーションなど、さまざまな世代のタスクに優れることが示された。
- 参考スコア(独自算出の注目度): 104.09730595701468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of visual generative models has long been constrained by fragmented architectures relying on disjoint text encoders and external VAEs. In this report, we present HiDream-O1-Image, a natively unified generative foundation model via pixel-space Diffusion Transformer, that pioneers a paradigm shift from modular architectures to an end-to-end in-context visual generation engine. By mapping raw image pixels, text tokens, and task-specific conditions into a single shared token space, HiDream-O1-Image achieves a structural unification of multimodal inputs within an Unified Transformer (UiT) architecture. This native encoding paradigm eliminates the need for separate VAEs or disjoint pre-trained text encoders, allowing the model to treat diverse generation and editing tasks as a consistent in-context reasoning process. Extensive experiments show that HiDream-O1-Image excels across various generation tasks, including text-to-image generation, instruction-based editing, and subject-driven personalization. Notably, with only 8B parameters, HiDream-O1-Image (8B) achieves performance parity with or even surpasses established state-of-the-art models with significantly larger parameters (e.g., 27B Qwen-Image). Crucially, to validate the immense scalability of this paradigm, we successfully scale the architecture up to over 200B parameters. Experimental results demonstrate that this massive-scale version HiDream-O1-Image-Pro (200B+) unlocks unprecedented generative capabilities and superior performance, establishing new state-of-the-art benchmarks. Ultimately, HiDream-O1-Image highlights the immense potential of natively unified architectures and charts a highly scalable path toward next-generation multimodal AI.
- Abstract(参考訳): 視覚生成モデルの進化は、解離したテキストエンコーダと外部のVAEに依存する断片化されたアーキテクチャによって長い間制約されてきた。
本稿では,HyDream-O1-Imageについて述べる。HyDream-O1-Imageは,画素空間Diffusion Transformerによるネイティブに統一された生成基盤モデルであり,モジュールアーキテクチャからエンド・ツー・エンドのビジュアル生成エンジンへのパラダイムシフトの先駆者である。
HiDream-O1-Imageは、原画像ピクセル、テキストトークン、タスク固有の条件を単一の共有トークン空間にマッピングすることにより、統一トランスフォーマー(UiT)アーキテクチャ内でのマルチモーダル入力の構造的統一を実現する。
このネイティブエンコーディングパラダイムは、VAEを分離したり、事前訓練されたテキストエンコーダを分離する必要をなくし、モデルが一貫性のあるインコンテキスト推論プロセスとして様々な生成および編集タスクを扱えるようにする。
大規模な実験により、HiDream-O1-Imageは、テキスト・ツー・イメージ生成、命令ベースの編集、主観的パーソナライゼーションなど、様々な世代のタスクに優れていた。
特に、8Bパラメータしか持たないHiDream-O1-Image (8B)は、非常に大きなパラメータを持つ既存の最先端モデル(例:27B Qwen-Image)と同等あるいはそれ以上のパフォーマンスを達成する。
重要なことに、このパラダイムの膨大なスケーラビリティを検証するために、アーキテクチャを200B以上のパラメータに拡張することに成功しました。
この大規模バージョンであるHiDream-O1-Image-Pro(200B+)は、前例のない生成能力と優れたパフォーマンスを解放し、新しい最先端ベンチマークを確立することを実証した。
最終的に、HiDream-O1-Imageは、ネイティブに統一されたアーキテクチャの潜在可能性を強調し、次世代マルチモーダルAIへの高度にスケーラブルなパスをグラフ化する。
関連論文リスト
- DuoGen: Towards General Purpose Interleaved Multimodal Generation [65.13479486098419]
DuoGenは汎用的なインターリーブ生成フレームワークで、データキュレーション、アーキテクチャ設計、評価に対処する。
我々は、キュレートされた生のWebサイトから書き直されたマルチモーダルな会話を組み合わせることで、大規模で高品質な命令チューニングデータセットを構築する。
2段階の切り離し戦略はまずMLLMをインストラクションチューニングし、次にインターリーブされた画像テキストシーケンスを使用してDiTをアライメントする。
論文 参考訳(メタデータ) (2026-01-31T04:35:15Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:56:27Z) - Modality-Specialized Synergizers for Interleaved Vision-Language Generalists [45.800383191637785]
ビジョンランゲージ・ジェネリスト(VLG)は、テキストと画像の両方を理解し、生成することができる。
1つの主な制限は、個別のテキストトークンと連続した画像の特徴を同時にモデル化するために、統一アーキテクチャと同じパラメータセットを適用することである。
最近の研究は、モダリティを意識したエキスパートモデルを導入することで、この問題に対処しようとしている。
本稿では,既存のVLGの統一アーキテクチャを効率的に最適化する新しい設計であるMODALITY-SPECIALIZED SynERGIZERS (MOSS)を紹介する。
論文 参考訳(メタデータ) (2024-07-04T03:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。