論文の概要: TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing
- arxiv url: http://arxiv.org/abs/2405.16803v1
- Date: Mon, 27 May 2024 03:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:06:16.196815
- Title: TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing
- Title(参考訳): TIE: 複雑プロンプト追従と高忠実度編集のためのテキストベースの画像編集の革新
- Authors: Xinyu Zhang, Mengxue Kang, Fei Wei, Shuang Xu, Yuhe Liu, Lin Ma,
- Abstract要約: マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
- 参考スコア(独自算出の注目度): 23.51498634405422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the field of image generation rapidly advances, traditional diffusion models and those integrated with multimodal large language models (LLMs) still encounter limitations in interpreting complex prompts and preserving image consistency pre and post-editing. To tackle these challenges, we present an innovative image editing framework that employs the robust Chain-of-Thought (CoT) reasoning and localizing capabilities of multimodal LLMs to aid diffusion models in generating more refined images. We first meticulously design a CoT process comprising instruction decomposition, region localization, and detailed description. Subsequently, we fine-tune the LISA model, a lightweight multimodal LLM, using the CoT process of Multimodal LLMs and the mask of the edited image. By providing the diffusion models with knowledge of the generated prompt and image mask, our models generate images with a superior understanding of instructions. Through extensive experiments, our model has demonstrated superior performance in image generation, surpassing existing state-of-the-art models. Notably, our model exhibits an enhanced ability to understand complex prompts and generate corresponding images, while maintaining high fidelity and consistency in images before and after generation.
- Abstract(参考訳): 画像生成の分野が急速に進歩するにつれて、従来の拡散モデルとマルチモーダルな大言語モデル(LLM)と統合されたモデルは、複雑なプロンプトの解釈や、画像の一貫性の事前と後編集の保存に制限に直面している。
これらの課題に対処するために,より洗練された画像を生成する上で拡散モデルを支援するために,マルチモーダルLLMのロバストなチェイン・オブ・ソート(CoT)推論とローカライズ機能を利用する,革新的な画像編集フレームワークを提案する。
まず,命令分解,領域ローカライゼーション,詳細な記述を含むCoTプロセスの設計を行う。
その後、マルチモーダルLLMのCoTプロセスと編集画像のマスクを用いて、軽量なマルチモーダルLLMであるLISAモデルを微調整する。
生成したプロンプトとイメージマスクの知識を持つ拡散モデルを提供することで、我々のモデルは命令の理解に優れた画像を生成する。
大規模な実験により,既存の最先端モデルよりも優れた画像生成性能を示した。
特に, 複雑なプロンプトを理解し, 対応する画像を生成する能力が向上し, 生成前後の画像の忠実度と一貫性が向上した。
関連論文リスト
- EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance [47.53085562765585]
本稿では,一大言語モデルにマルチモーダル理解と生成機能をシームレスに統合する統合型マルチモーダル言語モデル (MLLM) であるILLUMEを紹介する。
画像テキストアライメントに通常必要となる大規模なデータセットサイズに対処するため,視覚トークン化器の設計によるデータ効率の向上を提案する。
従来の研究で探索されていない理解と生成能力の相乗的向上を促進するために,我々は,新しい自己向上型マルチモーダルアライメント方式を導入する。
論文 参考訳(メタデータ) (2024-12-09T17:11:50Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。