Fugu-MT 論文翻訳(概要): OmniGen: Unified Image Generation

論文の概要: OmniGen: Unified Image Generation

arxiv url: http://arxiv.org/abs/2409.11340v1
Date: Tue, 17 Sep 2024 16:42:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 15:37:15.541405
Title: OmniGen: Unified Image Generation
Title（参考訳）: OmniGen:統一イメージ生成
Authors: Shitao Xiao, Yueze Wang, Junjie Zhou, Huaying Yuan, Xingrun Xing, Ruiran Yan, Shuting Wang, Tiejun Huang, Zheng Liu,
Abstract要約: 我々は統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGen は ControlNet IP-Adapter のような追加モジュールを必要としない。
参考スコア（独自算出の注目度）: 26.365359333757688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce OmniGen, a new diffusion model for unified image generation. Unlike popular diffusion models (e.g., Stable Diffusion), OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. OmniGenis characterized by the following features: 1) Unification: OmniGen not only demonstrates text-to-image generation capabilities but also inherently supports other downstream tasks, such as image editing, subject-driven generation, and visual-conditional generation. Additionally, OmniGen can handle classical computer vision tasks by transforming them into image generation tasks, such as edge detection and human pose recognition. 2) Simplicity: The architecture of OmniGen is highly simplified, eliminating the need for additional text encoders. Moreover, it is more user-friendly compared to existing diffusion models, enabling complex tasks to be accomplished through instructions without the need for extra preprocessing steps (e.g., human pose estimation), thereby significantly simplifying the workflow of image generation. 3) Knowledge Transfer: Through learning in a unified format, OmniGen effectively transfers knowledge across different tasks, manages unseen tasks and domains, and exhibits novel capabilities. We also explore the model's reasoning capabilities and potential applications of chain-of-thought mechanism. This work represents the first attempt at a general-purpose image generation model, and there remain several unresolved issues. We will open-source the related resources at https://github.com/VectorSpaceLab/OmniGen to foster advancements in this field.
Abstract（参考訳）: 本稿では,統合画像生成のための新しい拡散モデルであるOmniGenを紹介する。一般的な拡散モデル(例えば、安定拡散)とは異なり、OmniGenは様々な制御条件を処理するために、制御ネットやIP-Adapterなどの追加モジュールを必要としない。 OmniGenisの特徴は以下の通りである。 1)統一:OmniGenはテキスト・画像生成機能だけでなく,画像編集,主観駆動生成,視覚条件生成などの下流タスクも本質的にサポートしている。さらに、OmniGenは、エッジ検出や人間のポーズ認識などの画像生成タスクに変換することで、古典的なコンピュータビジョンタスクを処理できる。 2) シンプルさ: OmniGenのアーキテクチャは高度に単純化されており、追加のテキストエンコーダを必要としない。さらに、既存の拡散モデルよりもユーザフレンドリで、余分な前処理ステップ(例えば、人間のポーズ推定)を必要とせずに、複雑なタスクをインストラクションを通じて達成し、画像生成のワークフローを大幅に単純化する。 3)知識伝達: 統一形式での学習を通じて,OmniGenは,さまざまなタスク間で知識を効果的に伝達し,目に見えないタスクやドメインを管理し,新たな能力を示す。また、モデルの推論能力とチェーン・オブ・シント機構の潜在的な応用についても検討する。この研究は汎用画像生成モデルの最初の試みであり、未解決の問題もいくつか残っている。私たちは関連リソースをhttps://github.com/VectorSpaceLab/OmniGenでオープンソース化し、この分野の進歩を後押しします。

関連論文リスト

OmniGen2: Exploration to Advanced Multimodal Generation [62.58494500322778]
我々はOmniGen2を紹介した。OmniGen2は多種多様な生成タスクに統一されたソリューションを提供するために設計された汎用的でオープンソースな生成モデルである。 OmniGen v1とは異なり、OmniGen2はテキストと画像のモダリティのための2つの異なるデコードパスを備えており、未共有のパラメータと分離された画像トークンを使用する。
論文参考訳（メタデータ） (2025-06-23T17:38:54Z)
Unlocking Aha Moments via Reinforcement Learning: Advancing Collaborative Visual Comprehension and Generation [85.22602924467603]
視覚的理解と生成の協調的共進化を可能にすることを提案する。教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文参考訳（メタデータ） (2025-06-02T09:39:28Z)
Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing [7.278180096265984]
Nexus-Genは,多モーダル大言語モデルの言語推論能力を,拡散モデルの画像合成能力と相乗化する統一モデルである。本稿では, 連続埋め込みではなく, 位置埋め込み型特殊トークンで入力シーケンスをプリフィルする自己回帰方式を提案する。
論文参考訳（メタデータ） (2025-04-30T06:30:48Z)
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳（メタデータ） (2025-03-13T14:31:52Z)
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat [51.78489661490396]
マルチモーダル生成と理解を統合するモデルWeGenを紹介する。より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
論文参考訳（メタデータ） (2025-03-03T02:50:07Z)
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。 X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文参考訳（メタデータ） (2024-12-02T18:59:26Z)
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文参考訳（メタデータ） (2024-09-23T17:59:46Z)
ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation [27.773146599559286]
Anoleは、インターリーブ画像テキスト生成のための、オープンで自己回帰的で、ネイティブな大規模マルチモーダルモデルである。当社は、モデル、トレーニングフレームワーク、チューニングデータなどをオープンソース化しました。
論文参考訳（メタデータ） (2024-07-08T17:08:02Z)
GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing [60.09562648953926]
GenArtistは、マルチモーダル大言語モデル(MLLM)エージェントによって調整された統合画像生成および編集システムである。ツールライブラリに既存のモデルを包括的に統合し,ツールの選択と実行にエージェントを利用する。実験により、GenArtistは様々な生成および編集タスクを実行でき、最先端のパフォーマンスを達成できることが示された。
論文参考訳（メタデータ） (2024-07-08T04:30:53Z)
Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文参考訳（メタデータ） (2024-05-16T08:00:55Z)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。 SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2024-04-22T17:56:09Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文参考訳（メタデータ） (2021-12-08T21:39:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。