Fugu-MT 論文翻訳(概要): Image Inpainting Models are Effective Tools for Instruction-guided Image Editing

論文の概要: Image Inpainting Models are Effective Tools for Instruction-guided Image Editing

arxiv url: http://arxiv.org/abs/2407.13139v1
Date: Thu, 18 Jul 2024 03:55:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 18:53:59.351757
Title: Image Inpainting Models are Effective Tools for Instruction-guided Image Editing
Title（参考訳）: インストラクション誘導画像編集における画像描画モデルの有用性
Authors: Xuan Ju, Junhao Zhuang, Zhaoyang Zhang, Yuxuan Bian, Qiang Xu, Ying Shan,
Abstract要約: CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
参考スコア（独自算出の注目度）: 42.63350374074953
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This is the technique report for the winning solution of the CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing track. Instruction-guided image editing has been largely studied in recent years. The most advanced methods, such as SmartEdit and MGIE, usually combine large language models with diffusion models through joint training, where the former provides text understanding ability, and the latter provides image generation ability. However, in our experiments, we find that simply connecting large language models and image generation models through intermediary guidance such as masks instead of joint fine-tuning leads to a better editing performance and success rate. We use a 4-step process IIIE (Inpainting-based Instruction-guided Image Editing): editing category classification, main editing object identification, editing mask acquisition, and image inpainting. Results show that through proper combinations of language models and image inpainting models, our pipeline can reach a high success rate with satisfying visual quality.
Abstract（参考訳）: CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-Guided Image Editing Trackの優勝論文である。近年,指導指導による画像編集が盛んに研究されている。 SmartEditやMGIEのような最も先進的な手法は、大きめの言語モデルと共同トレーニングによる拡散モデルを組み合わせており、後者はテキスト理解能力を提供し、後者は画像生成能力を提供する。しかし,実験の結果,大規模な言語モデルと画像生成モデルとの結合をマスクなどの中間的ガイダンスで行うだけで,より優れた編集性能と成功率が得られることがわかった。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。

関連論文リスト

Instruction-based Image Editing with Planning, Reasoning, and Generation [52.0364486403062]
以前の作業では、大きな言語モデル、オブジェクトセグメンテーションモデル、このタスクのためのモデル編集の連鎖を利用していた。我々は、命令ベースの画像編集モデルにインテリジェントな能力を提供する新しいマルチモーダリティモデルにより、理解と生成をブリッジすることを目指している。本手法は,複雑な実世界の画像に対して,競合する編集能力を有する。
論文参考訳（メタデータ） (2026-02-26T04:56:02Z)
TalkPhoto: A Versatile Training-Free Conversational Assistant for Intelligent Image Editing [21.708181904910177]
MLLM(Multimodal Large Language Models)は、命令と画像間の情報交換を促進する。これらのフレームワークは、複数の編集タスクを処理するためにモデルをトレーニングするために、しばしばマルチインストラクションデータセットを構築する。本研究では,対話型インタラクションによる正確な画像操作を容易にする,多目的なトレーニング不要な画像編集フレームワークであるTalkPhotoを紹介する。
論文参考訳（メタデータ） (2026-01-05T09:00:32Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-22T17:17:28Z)
BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-13T17:58:06Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文参考訳（メタデータ） (2024-03-08T03:43:04Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Guiding Instruction-based Image Editing via Multimodal Large Language Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文参考訳（メタデータ） (2023-09-29T10:01:50Z)
SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文参考訳（メタデータ） (2022-12-08T18:57:13Z)
InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文参考訳（メタデータ） (2022-11-17T18:58:43Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)
SpaceEdit: Learning a Unified Editing Space for Open-Domain Image Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文参考訳（メタデータ） (2021-11-30T23:53:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。