論文の概要: HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2505.22705v1
- Date: Wed, 28 May 2025 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.452098
- Title: HiDream-I1: A High-Efficient Image Generative Foundation Model with Sparse Diffusion Transformer
- Title(参考訳): HiDream-I1:スパース拡散変換器を用いた高能率画像生成基礎モデル
- Authors: Qi Cai, Jingwen Chen, Yang Chen, Yehao Li, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Yiheng Zhang, Fengbin Gao, Peihan Xu, Yimeng Wang, Kai Yu, Wenxuan Chen, Ziwei Feng, Zijian Gong, Jianzhuang Pan, Yi Peng, Rui Tian, Siyu Wang, Bo Zhao, Ting Yao, Tao Mei,
- Abstract要約: HiDream-I1は17Bパラメータを持つオープンソースの画像生成基盤モデルである。
最先端の画像生成品質を数秒で達成する。
テキスト画像生成と命令ベースの画像編集を統合することで、HiDream-I1は進化し、包括的なイメージエージェントを形成する。
- 参考スコア(独自算出の注目度): 95.32974291697234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in image generative foundation models have prioritized quality improvements but often at the cost of increased computational complexity and inference latency. To address this critical trade-off, we introduce HiDream-I1, a new open-source image generative foundation model with 17B parameters that achieves state-of-the-art image generation quality within seconds. HiDream-I1 is constructed with a new sparse Diffusion Transformer (DiT) structure. Specifically, it starts with a dual-stream decoupled design of sparse DiT with dynamic Mixture-of-Experts (MoE) architecture, in which two separate encoders are first involved to independently process image and text tokens. Then, a single-stream sparse DiT structure with dynamic MoE architecture is adopted to trigger multi-model interaction for image generation in a cost-efficient manner. To support flexiable accessibility with varied model capabilities, we provide HiDream-I1 in three variants: HiDream-I1-Full, HiDream-I1-Dev, and HiDream-I1-Fast. Furthermore, we go beyond the typical text-to-image generation and remould HiDream-I1 with additional image conditions to perform precise, instruction-based editing on given images, yielding a new instruction-based image editing model namely HiDream-E1. Ultimately, by integrating text-to-image generation and instruction-based image editing, HiDream-I1 evolves to form a comprehensive image agent (HiDream-A1) capable of fully interactive image creation and refinement. To accelerate multi-modal AIGC research, we have open-sourced all the codes and model weights of HiDream-I1-Full, HiDream-I1-Dev, HiDream-I1-Fast, HiDream-E1 through our project websites: https://github.com/HiDream-ai/HiDream-I1 and https://github.com/HiDream-ai/HiDream-E1. All features can be directly experienced via https://vivago.ai/studio.
- Abstract(参考訳): 画像生成基盤モデルの最近の進歩は、品質改善を優先しているが、しばしば計算複雑性と推論遅延の増大によるコストがかかる。
この重要なトレードオフに対処するため,HyDream-I1は17Bパラメータを持つ新しいオープンソース画像生成基盤モデルであり,最先端の画像生成品質を数秒で達成する。
HiDream-I1は、新しいスパース拡散変換器(DiT)構造で構成されている。
具体的には、ダイナミックなMixture-of-Experts (MoE)アーキテクチャを備えたスパースDiTの二重ストリーム分離設計から始まり、2つのエンコーダが最初に画像とテキストトークンを独立に処理する。
そして、動的MoEアーキテクチャを持つ単一ストリームスパースDiT構造を用いて、画像生成のためのマルチモデル相互作用をコスト効率よくトリガーする。
HiDream-I1-Full, HiDream-I1-Dev, HiDream-I1-Fastの3つの変種にHiDream-I1を提供する。
さらに,HyDream-E1という命令ベースの画像編集モデルを新たに生成し,画像条件を付加し,与えられた画像に対して高精度な命令ベースの編集を行う。
最終的に、テキスト・ツー・イメージ生成と命令ベースの画像編集を統合することで、HiDream-I1は進化し、完全にインタラクティブな画像生成と改善が可能な包括的イメージエージェント(HiDream-A1)を形成する。
マルチモーダルAIGC研究を加速するために、HiDream-I1-Full、HiDream-I1-Dev、HiDream-I1-Fast、HiDream-E1のすべてのコードとモデルの重みをプロジェクトのWebサイトでオープンソース化しました。
すべての機能はhttps://vivago.ai/studio.comで直接体験することができる。
関連論文リスト
- Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling [40.760925022595195]
ACE++は、様々な画像生成と編集タスクに取り組む命令ベースの拡散フレームワークである。
我々は、強力なテキスト・画像拡散モデルを微調整する作業を最小化するために、2段階のトレーニングスキームを開発する。
論文 参考訳(メタデータ) (2025-01-05T09:40:58Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a
Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。
ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。
高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文 参考訳(メタデータ) (2023-12-07T18:58:09Z) - ImageDream: Image-Prompt Multi-view Diffusion for 3D Generation [13.937824761162956]
画像Dreamは3次元オブジェクト生成のための革新的な画像プロンプト・マルチビュー拡散モデルである。
提案手法では,画像中の物体に対する標準カメラ調整を利用して,視覚的幾何学的精度を向上する。
論文 参考訳(メタデータ) (2023-12-02T20:41:27Z) - DreamLLM: Synergistic Multimodal Comprehension and Creation [58.08565432353053]
DreamLLMはマルチモーダル大規模言語モデル(MLLM)を初めて実現した学習フレームワークである
DreamLLMは生のインターリーブドドキュメントの生成を促進し、テキストと画像の両方のコンテンツと非構造化レイアウトをモデル化する。
その結果、DreamLLMはフリーフォームインターリーブコンテンツを生成する最初のMLLMとなった。
論文 参考訳(メタデータ) (2023-09-20T17:58:05Z) - HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models [58.39439948383928]
HyperDreamBoothは、単一のイメージから小さなパーソナライズされた重みを効率的に生成できるハイパーネットワークである。
本手法は,DreamBoothの約20秒,DreamBoothの約25倍,Textual Inversionの125倍の速さで顔のパーソナライズを実現する。
論文 参考訳(メタデータ) (2023-07-13T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。