論文の概要: OmniGen: Unified Image Generation
- arxiv url: http://arxiv.org/abs/2409.11340v2
- Date: Thu, 21 Nov 2024 14:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:16:52.165898
- Title: OmniGen: Unified Image Generation
- Title(参考訳): OmniGen:統一イメージ生成
- Authors: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Chaofan Li, Shuting Wang, Tiejun Huang, Zheng Liu,
- Abstract要約: 我々は,統合画像生成のための新しい拡散モデルであるOmniGenを提案する。
画像編集、主観駆動生成、視覚条件生成など、さまざまな下流タスクをサポートする。
OmniGenのアーキテクチャは高度に単純化されており、追加のプラグインを必要としない。
- 参考スコア(独自算出の注目度): 25.75041469368185
- License:
- Abstract: The emergence of Large Language Models (LLMs) has unified language generation tasks and revolutionized human-machine interaction. However, in the realm of image generation, a unified model capable of handling various tasks within a single framework remains largely unexplored. In this work, we introduce OmniGen, a new diffusion model for unified image generation. OmniGen is characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports various downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional plugins. Moreover, compared to existing diffusion models, it is more user-friendly and can complete complex tasks end-to-end through instructions without the need for extra intermediate steps, greatly simplifying the image generation workflow. 3) Knowledge Transfer: Benefit from learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of the chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and we will release our resources at https://github.com/VectorSpaceLab/OmniGen to foster future advancements.
- Abstract(参考訳): LLM(Large Language Models)の出現は、言語生成タスクを統一し、人間と機械の相互作用に革命をもたらした。
しかし、画像生成の領域では、単一のフレームワーク内で様々なタスクを処理できる統一モデルはほとんど探索されていない。
本稿では,統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。
OmniGenには以下の特徴がある。
1)統一:OmniGenはテキスト・画像生成機能だけでなく,画像編集,主観駆動生成,視覚条件生成など,さまざまな下流タスクも本質的にサポートしている。
2) シンプルさ: OmniGenのアーキテクチャは高度に単純化され、追加のプラグインを必要としない。
さらに、既存の拡散モデルと比較して、よりユーザフレンドリで、中間ステップを余分に必要とせずに命令を通じて複雑なタスクをエンドツーエンドで完了し、画像生成ワークフローを大幅に単純化することができる。
3)知識伝達:OmniGenは、統一形式での学習から恩恵を受け、異なるタスク間で知識を効果的に伝達し、目に見えないタスクやドメインを管理し、新しい能力を示す。
また、モデルの推論能力と、チェーン・オブ・シント機構の潜在的な応用についても検討する。
この作業は、汎用画像生成モデルの最初の試みであり、将来の進歩を促進するために、https://github.com/VectorSpaceLab/OmniGenでリソースをリリースします。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation [27.773146599559286]
Anoleは、インターリーブ画像テキスト生成のための、オープンで自己回帰的で、ネイティブな大規模マルチモーダルモデルである。
当社は、モデル、トレーニングフレームワーク、チューニングデータなどをオープンソース化しました。
論文 参考訳(メタデータ) (2024-07-08T17:08:02Z) - GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-08T04:30:53Z) - Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。
生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。
本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文 参考訳(メタデータ) (2024-05-16T08:00:55Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。