論文の概要: OmniGen: Unified Image Generation
- arxiv url: http://arxiv.org/abs/2409.11340v1
- Date: Tue, 17 Sep 2024 16:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:37:15.541405
- Title: OmniGen: Unified Image Generation
- Title(参考訳): OmniGen:統一イメージ生成
- Authors: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu,
- Abstract要約: 我々は統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。
一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGen は ControlNet IP-Adapter のような追加モジュールを必要としない。
- 参考スコア(独自算出の注目度): 26.365359333757688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.
- Abstract(参考訳): 本稿では,統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。
一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGenは様々な制御条件を処理するために、制御ネットやIP-Adapterなどの追加モジュールを必要としない。
OmniGenisの特徴は以下の通りである。
1)統一:OmniGenはテキスト・画像生成機能だけでなく,画像編集,主観駆動生成,視覚条件生成などの下流タスクも本質的にサポートしている。
さらに、OmniGenは、エッジ検出や人間のポーズ認識などの画像生成タスクに変換することで、古典的なコンピュータビジョンタスクを処理できる。
2) シンプルさ: OmniGenのアーキテクチャは高度に単純化されており、追加のテキストエンコーダを必要としない。
さらに、既存の拡散モデルよりもユーザフレンドリで、余分な前処理ステップ(例えば、人間のポーズ推定)を必要とせずに、複雑なタスクをインストラクションを通じて達成し、画像生成のワークフローを大幅に単純化する。
3)知識伝達: 統一形式での学習を通じて,OmniGenは,さまざまなタスク間で知識を効果的に伝達し,目に見えないタスクやドメインを管理し,新たな能力を示す。
また、モデルの推論能力とチェーン・オブ・シント機構の潜在的な応用についても検討する。
この研究は汎用画像生成モデルの最初の試みであり、未解決の問題もいくつか残っている。
私たちは関連リソースをhttps://github.com/VectorSpaceLab/OmniGenでオープンソース化し、この分野の進歩を後押しします。
関連論文リスト
- EliGen: Entity-Level Controlled Image Generation with Regional Attention [7.7120747804211405]
我々はエンティティレベルの制御された画像生成のための新しいフレームワークであるEliGenを紹介する。
我々はEliGenに、空間的精度と画質の両方において既存の手法を超越して、堅牢で正確な実体レベルの操作を実現するよう訓練する。
マルチエンタテインティングタスクにその能力を拡張したインパインティング・フュージョン・パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-02T06:46:13Z) - UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。
ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。
実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文 参考訳(メタデータ) (2024-07-08T04:30:53Z) - Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。
生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。
本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文 参考訳(メタデータ) (2024-05-16T08:00:55Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。