Fugu-MT 論文翻訳(概要): ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling

論文の概要: ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling

arxiv url: http://arxiv.org/abs/2501.02487v1
Date: Sun, 05 Jan 2025 09:40:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.38269
Title: ACE++: Instruction-Based Image Creation and Editing via Context-Aware Content Filling
Title（参考訳）: ACE++: コンテキスト対応コンテンツフィリングによるインストラクションベースのイメージ生成と編集
Authors: Chaojie Mao, Jingfeng Zhang, Yulin Pan, Zeyinzi Jiang, Zhen Han, Yu Liu, Jingren Zhou,
Abstract要約: ACE++は、様々な画像生成および編集タスクに取り組むインストラクションベースの拡散フレームワークである。 FLUX.1-Fill-devによって提案されたインペイントタスクの入力形式にヒントを得て、ACEに導入されたLong-context Condition Unit(LCU)を改善する。画像生成の先行を最大限に活用するために,強力なテキスト・画像拡散モデルを微調整する作業を最小限に抑えるための2段階のトレーニング手法を開発した。
参考スコア（独自算出の注目度）: 40.760925022595195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We report ACE++, an instruction-based diffusion framework that tackles various image generation and editing tasks. Inspired by the input format for the inpainting task proposed by FLUX.1-Fill-dev, we improve the Long-context Condition Unit (LCU) introduced in ACE and extend this input paradigm to any editing and generation tasks. To take full advantage of image generative priors, we develop a two-stage training scheme to minimize the efforts of finetuning powerful text-to-image diffusion models like FLUX.1-dev. In the first stage, we pre-train the model using task data with the 0-ref tasks from the text-to-image model. There are many models in the community based on the post-training of text-to-image foundational models that meet this training paradigm of the first stage. For example, FLUX.1-Fill-dev deals primarily with painting tasks and can be used as an initialization to accelerate the training process. In the second stage, we finetune the above model to support the general instructions using all tasks defined in ACE. To promote the widespread application of ACE++ in different scenarios, we provide a comprehensive set of models that cover both full finetuning and lightweight finetuning, while considering general applicability and applicability in vertical scenarios. The qualitative analysis showcases the superiority of ACE++ in terms of generating image quality and prompt following ability.
Abstract（参考訳）: ACE++は、様々な画像生成および編集タスクに取り組むインストラクションベースの拡散フレームワークである。 FLUX.1-Fill-devによって提案されたインペイントタスクの入力形式にヒントを得て、ACEに導入されたLong-context Condition Unit(LCU)を改善し、この入力パラダイムを任意の編集および生成タスクに拡張する。画像生成の先行を最大限に活用するために,FLUX.1-devのような強力なテキスト・画像拡散モデルの微調整を最小化する2段階のトレーニング手法を開発した。最初の段階では、テキスト・ツー・イメージ・モデルから0-refタスクでタスクデータを用いてモデルを事前訓練する。コミュニティには、最初の段階のトレーニングパラダイムを満たすテキスト・ツー・イメージの基礎モデルのポストトレーニングに基づく、多くのモデルがあります。例えば、FLUX.1-Fill-devは主に塗装作業を扱うもので、訓練プロセスを加速するために初期化として使用できる。第2段階では、ACEで定義されたすべてのタスクを使用して、上記のモデルを微調整し、一般的な命令をサポートする。異なるシナリオにおけるACE++の広範な適用を促進するため、垂直シナリオにおける汎用性と適用性を考慮して、フル微調整と軽量微調整の両方をカバーする包括的なモデルセットを提供する。定性的な分析は、画像品質の生成と後続の能力の促進という観点から、ACE++の優位性を示している。

関連論文リスト

Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
UniVG: A Generalist Diffusion Model for Unified Image Generation and Editing [59.590505989071175]
テキスト・ツー・イメージ(T2I)拡散モデルでは、ユーザのプロンプトに従って視覚的に魅力的な画像を生成するという印象的な結果が示されている。我々は,一組の重みで多様な画像生成タスクをサポートする汎用拡散モデルUniVGを紹介する。
論文参考訳（メタデータ） (2025-03-16T21:11:25Z)
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳（メタデータ） (2025-03-13T14:31:52Z)
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-30T17:56:27Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文参考訳（メタデータ） (2023-05-19T10:29:42Z)
In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文参考訳（メタデータ） (2023-05-01T23:03:37Z)
Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文参考訳（メタデータ） (2022-05-25T17:58:26Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。