論文の概要: ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2410.00086v2
- Date: Tue, 5 Nov 2024 12:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:11:34.581030
- Title: ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer
- Title(参考訳): ACE:Diffusion Transformerによるインストラクションに続く全ラウンドのクリエータとエディタ
- Authors: Zhen Han, Zeyinzi Jiang, Yulin Pan, Jingfeng Zhang, Chaojie Mao, Chenwei Xie, Yu Liu, Jingren Zhou,
- Abstract要約: 視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。
まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。
次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 40.32254040909614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have emerged as a powerful generative technology and have been found to be applicable in various scenarios. Most existing foundational diffusion models are primarily designed for text-guided visual generation and do not support multi-modal conditions, which are essential for many visual editing tasks. This limitation prevents these foundational diffusion models from serving as a unified model in the field of visual generation, like GPT-4 in the natural language processing field. In this work, we propose ACE, an All-round Creator and Editor, which achieves comparable performance compared to those expert models in a wide range of visual generation tasks. To achieve this goal, we first introduce a unified condition format termed Long-context Condition Unit (LCU), and propose a novel Transformer-based diffusion model that uses LCU as input, aiming for joint training across various generation and editing tasks. Furthermore, we propose an efficient data collection approach to address the issue of the absence of available training data. It involves acquiring pairwise images with synthesis-based or clustering-based pipelines and supplying these pairs with accurate textual instructions by leveraging a fine-tuned multi-modal large language model. To comprehensively evaluate the performance of our model, we establish a benchmark of manually annotated pairs data across a variety of visual generation tasks. The extensive experimental results demonstrate the superiority of our model in visual generation fields. Thanks to the all-in-one capabilities of our model, we can easily build a multi-modal chat system that responds to any interactive request for image creation using a single model to serve as the backend, avoiding the cumbersome pipeline typically employed in visual agents. Code and models will be available on the project page: https://ali-vilab.github.io/ace-page/.
- Abstract(参考訳): 拡散モデルは強力な生成技術として登場し、様々なシナリオに適用可能であることが判明した。
既存の基盤拡散モデルは、主にテキスト誘導視覚生成のために設計されており、多くの視覚編集タスクに不可欠なマルチモーダル条件をサポートしていない。
この制限により、これらの基礎拡散モデルは、自然言語処理分野におけるGPT-4のような視覚生成分野における統一モデルとして機能することができない。
本研究では,多種多様な視覚生成タスクにおいて,エキスパートモデルと同等の性能を発揮する全ラウンドクリエータとエディタであるACEを提案する。
この目的を達成するために、まずLong-context Condition Unit (LCU)と呼ばれる統一条件形式を導入し、LCUを入力として使用するトランスフォーマーベースの拡散モデルを提案する。
さらに、利用可能なトレーニングデータの欠如の問題に対処する効率的なデータ収集手法を提案する。
合成ベースまたはクラスタリングベースのパイプラインによるペアワイズ画像の取得と、細調整されたマルチモーダルな大規模言語モデルを活用することで、これらのペアに正確なテキスト命令を提供する。
モデルの性能を総合的に評価するために,様々な視覚生成タスクに対して手動でアノテートしたペアデータのベンチマークを構築した。
広範に実験を行った結果,視覚生成分野におけるモデルの有用性が示された。
私たちのモデルのオールインワン機能のおかげで、単一のモデルを使ってバックエンドとして機能する画像生成の対話的な要求に応答するマルチモーダルなチャットシステムを簡単に構築できます。
コードとモデルはプロジェクトページ(https://ali-vilab.github.io/ace-page/.com/)で利用可能になる。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [24.58881004205822]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - DiffusionGPT: LLM-Driven Text-to-Image Generation System [39.15054464137383]
DiffusionGPTは、様々な種類のプロンプトをシームレスに調整し、ドメインエキスパートモデルを統合できる統一された生成システムを提供する。
LLMはプロンプトを解析し、Tree-of-Thoughtを使用して適切なモデルの選択をガイドし、入力制約を緩和する。
本稿では,Advantage Databasesを紹介し,Tree-of-Thoughtは人間のフィードバックに富み,モデル選択プロセスと人間の好みを一致させる。
論文 参考訳(メタデータ) (2024-01-18T15:30:58Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。