論文の概要: AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation
- arxiv url: http://arxiv.org/abs/2406.01388v1
- Date: Mon, 3 Jun 2024 14:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:39:57.239151
- Title: AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation
- Title(参考訳): AutoStudio:マルチターンインタラクティブ画像生成における一貫性のある主題の作成
- Authors: Junhao Cheng, Xi Lu, Hanhui Li, Khun Loun Zai, Baiqiao Yin, Yuhao Cheng, Yiqiang Yan, Xiaodan Liang,
- Abstract要約: インタラクティブな画像を生成するためのAutoStudioという,トレーニング不要なマルチエージェントフレームワークを提案する。
AutoStudioは、対話を処理するために大きな言語モデル(LLM)に基づく3つのエージェントと、高品質な画像を生成するための安定した拡散(SD)ベースのエージェントを使用している。
パブリックなCMIGBenchベンチマークと人的評価の実験は、AutoStudioが複数のターンにわたる複数オブジェクトの一貫性を良好に維持していることを示している。
- 参考スコア(独自算出の注目度): 41.990464968024845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As cutting-edge Text-to-Image (T2I) generation models already excel at producing remarkable single images, an even more challenging task, i.e., multi-turn interactive image generation begins to attract the attention of related research communities. This task requires models to interact with users over multiple turns to generate a coherent sequence of images. However, since users may switch subjects frequently, current efforts struggle to maintain subject consistency while generating diverse images. To address this issue, we introduce a training-free multi-agent framework called AutoStudio. AutoStudio employs three agents based on large language models (LLMs) to handle interactions, along with a stable diffusion (SD) based agent for generating high-quality images. Specifically, AutoStudio consists of (i) a subject manager to interpret interaction dialogues and manage the context of each subject, (ii) a layout generator to generate fine-grained bounding boxes to control subject locations, (iii) a supervisor to provide suggestions for layout refinements, and (iv) a drawer to complete image generation. Furthermore, we introduce a Parallel-UNet to replace the original UNet in the drawer, which employs two parallel cross-attention modules for exploiting subject-aware features. We also introduce a subject-initialized generation method to better preserve small subjects. Our AutoStudio hereby can generate a sequence of multi-subject images interactively and consistently. Extensive experiments on the public CMIGBench benchmark and human evaluations show that AutoStudio maintains multi-subject consistency across multiple turns well, and it also raises the state-of-the-art performance by 13.65% in average Frechet Inception Distance and 2.83% in average character-character similarity.
- Abstract(参考訳): 最先端のテキスト・ツー・イメージ(T2I)生成モデルは、既に優れた単一画像の生成に優れており、さらに難しい課題であるマルチターン・インタラクティブな画像生成が、関連研究コミュニティの注目を集め始めている。
このタスクでは、複数のターンでユーザーと対話し、一貫性のある画像列を生成する必要がある。
しかし、ユーザが頻繁に主題を切り替える可能性があるため、現在の取り組みは多様な画像を生成しながら主題の一貫性を維持するのに苦労している。
この問題に対処するために、AutoStudioと呼ばれるトレーニング不要のマルチエージェントフレームワークを導入する。
AutoStudioは、対話を処理するために大きな言語モデル(LLM)に基づく3つのエージェントと、高品質な画像を生成するための安定した拡散(SD)ベースのエージェントを使用している。
特にAutoStudioは
一 対話の対話を解釈し、各主題の文脈を管理する主観管理者
二 被写体位置を制御するためのきめ細かいバウンディングボックスを生成するレイアウト生成装置
三 レイアウト改良の提案をする監督官、及び
(iv)画像生成を完了させる引き出し。
さらに,従来のUNetを置き換えるためにParallel-UNetを導入する。
また,小被写体を保存しやすくするための被写体初期化生成手法も導入した。
当社のAutoStudioでは,対話的かつ一貫したマルチオブジェクト画像のシーケンスを生成することができる。
パブリックなCMIGBenchベンチマークと人間による評価による大規模な実験では、AutoStudioは複数のターンにまたがる複数オブジェクトの一貫性を維持しており、Frechet Inception Distanceの平均は13.65%、平均的な文字-文字類似度は2.83%向上している。
関連論文リスト
- DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - MuLan: Multimodal-LLM Agent for Progressive and Interactive Multi-Object Diffusion [81.7514869897233]
トレーニング不要なマルチモーダルLLMエージェント (MuLan) を人体画家として開発し, 段階的にマルチオブジェクトを生成する。
MuLanは、大きな言語モデル(LLM)を使用して、サブタスクのシーケンスへのプロンプトを分解する。
MuLanはまた、視覚言語モデル(VLM)を採用して、各サブタスクで生成された画像にフィードバックを提供し、拡散モデルを制御して、元のプロンプトに反した場合に画像を再生成する。
論文 参考訳(メタデータ) (2024-02-20T06:14:30Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。