論文の概要: OmniGen: Unified Image Generation
- arxiv url: http://arxiv.org/abs/2409.11340v1
- Date: Tue, 17 Sep 2024 16:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:37:15.541405
- Title: OmniGen: Unified Image Generation
- Title(参考訳): OmniGen:統一イメージ生成
- Authors: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu,
- Abstract要約: 我々は統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。
一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGen は ControlNet IP-Adapter のような追加モジュールを必要としない。
- 参考スコア(独自算出の注目度): 26.365359333757688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.
- Abstract(参考訳): 本稿では,統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。
一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGenは様々な制御条件を処理するために、制御ネットやIP-Adapterなどの追加モジュールを必要としない。
OmniGenisの特徴は以下の通りである。
1)統一:OmniGenはテキスト・画像生成機能だけでなく,画像編集,主観駆動生成,視覚条件生成などの下流タスクも本質的にサポートしている。
さらに、OmniGenは、エッジ検出や人間のポーズ認識などの画像生成タスクに変換することで、古典的なコンピュータビジョンタスクを処理できる。
2) シンプルさ: OmniGenのアーキテクチャは高度に単純化されており、追加のテキストエンコーダを必要としない。
さらに、既存の拡散モデルよりもユーザフレンドリで、余分な前処理ステップ(例えば、人間のポーズ推定)を必要とせずに、複雑なタスクをインストラクションを通じて達成し、画像生成のワークフローを大幅に単純化する。
3)知識伝達: 統一形式での学習を通じて,OmniGenは,さまざまなタスク間で知識を効果的に伝達し,目に見えないタスクやドメインを管理し,新たな能力を示す。
また、モデルの推論能力とチェーン・オブ・シント機構の潜在的な応用についても検討する。
この研究は汎用画像生成モデルの最初の試みであり、未解決の問題もいくつか残っている。
私たちは関連リソースをhttps://github.com/VectorSpaceLab/OmniGenでオープンソース化し、この分野の進歩を後押しします。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation [27.773146599559286]
Anoleは、インターリーブ画像テキスト生成のための、オープンで自己回帰的で、ネイティブな大規模マルチモーダルモデルである。
当社は、モデル、トレーニングフレームワーク、チューニングデータなどをオープンソース化しました。
論文 参考訳(メタデータ) (2024-07-08T17:08:02Z) - GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-08T04:30:53Z) - Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。
生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。
本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文 参考訳(メタデータ) (2024-05-16T08:00:55Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。