論文の概要: Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting
- arxiv url: http://arxiv.org/abs/2404.18598v1
- Date: Mon, 29 Apr 2024 11:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:57:37.660031
- Title: Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting
- Title(参考訳): Anywhere: 信頼性とディヴァース・フォアグラウンド・コンディション・イメージ・インペインティングのためのマルチエージェント・フレームワーク
- Authors: Tianyidan Xie, Rui Ma, Qian Wang, Xiaoqian Ye, Feixuan Liu, Ying Tai, Zhenyu Zhang, Zili Yi,
- Abstract要約: 我々は,前景画像の塗布における課題に対処するために設計された,先駆的なマルチエージェントフレームワークであるAnywhereを紹介した。
Anywhereには、ビジュアル言語モデル、大規模言語モデル、画像生成モデルなど、さまざまなエージェントが採用されている。
前景の塗装、「過剰想像」の緩和、前景の背景の相違の解消、多様性の向上などである。
- 参考スコア(独自算出の注目度): 28.65445105418749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in image inpainting, particularly through diffusion modeling, have yielded promising outcomes. However, when tested in scenarios involving the completion of images based on the foreground objects, current methods that aim to inpaint an image in an end-to-end manner encounter challenges such as "over-imagination", inconsistency between foreground and background, and limited diversity. In response, we introduce Anywhere, a pioneering multi-agent framework designed to address these issues. Anywhere utilizes a sophisticated pipeline framework comprising various agents such as Visual Language Model (VLM), Large Language Model (LLM), and image generation models. This framework consists of three principal components: the prompt generation module, the image generation module, and the outcome analyzer. The prompt generation module conducts a semantic analysis of the input foreground image, leveraging VLM to predict relevant language descriptions and LLM to recommend optimal language prompts. In the image generation module, we employ a text-guided canny-to-image generation model to create a template image based on the edge map of the foreground image and language prompts, and an image refiner to produce the outcome by blending the input foreground and the template image. The outcome analyzer employs VLM to evaluate image content rationality, aesthetic score, and foreground-background relevance, triggering prompt and image regeneration as needed. Extensive experiments demonstrate that our Anywhere framework excels in foreground-conditioned image inpainting, mitigating "over-imagination", resolving foreground-background discrepancies, and enhancing diversity. It successfully elevates foreground-conditioned image inpainting to produce more reliable and diverse results.
- Abstract(参考訳): 画像の塗布、特に拡散モデルによる最近の進歩は、有望な結果をもたらしている。
しかしながら、前景のオブジェクトをベースとした画像の完成を含むシナリオでテストした場合、イメージをエンドツーエンドで描き込む現在の手法は、"過剰な想像"、前景と背景の矛盾、多様性の制限といった課題に直面している。
これに対し、これらの問題に対処するために設計された、先駆的なマルチエージェントフレームワークであるAnywhereを紹介します。
Anywhereは、Visual Language Model (VLM)、Large Language Model (LLM)、画像生成モデルなど、さまざまなエージェントからなる洗練されたパイプラインフレームワークを利用している。
このフレームワークは、プロンプト生成モジュール、画像生成モジュール、結果アナライザの3つの主要コンポーネントで構成されている。
プロンプト生成モジュールは入力前景画像のセマンティック解析を行い、VLMを利用して関連する言語記述を予測し、LLMは最適な言語プロンプトを推奨する。
画像生成モジュールでは、フォアグラウンド画像と言語プロンプトのエッジマップに基づくテンプレート画像を作成するためにテキスト誘導キャニー・ツー・イメージ生成モデルを使用し、入力フォアグラウンドとテンプレートイメージをブレンドして結果を生成する。
結果分析器は、VLMを用いて画像内容合理性、美的スコア、前景背景関係を評価し、必要に応じてプロンプト及び画像再生を誘導する。
大規模な実験により、Anywhereフレームワークは、前景に塗布された画像に優れ、「過剰なイメージ化」を緩和し、前景と背景の相違を解消し、多様性を高めていることが示された。
これは、より信頼性が高く多様な結果をもたらすために、前景条件画像の塗布を成功させる。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - An End-to-End Model for Photo-Sharing Multi-modal Dialogue Generation [43.139415423751615]
写真共有マルチモーダル対話生成には、テキスト応答を生成するだけでなく、適切なタイミングで写真を共有するための対話エージェントが必要である。
パイプラインモデルは、この複雑なマルチモーダルタスクを処理するために、画像キャプションモデル、テキスト生成モデル、画像生成モデルを統合する。
本稿では,画像パーセプトロンと画像生成器を大言語モデルに統合した,写真共有マルチモーダル対話生成のための最初のエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:33:19Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [76.02314305164595]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。