論文の概要: FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction
- arxiv url: http://arxiv.org/abs/2409.18071v1
- Date: Thu, 26 Sep 2024 17:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 16:26:02.226221
- Title: FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction
- Title(参考訳): FreeEdit:マルチモーダルインストラクションによるマスクフリー参照ベース画像編集
- Authors: Runze He, Kai Ma, Linjiang Huang, Shaofei Huang, Jialin Gao, Xiaoming Wei, Jiao Dai, Jizhong Han, Si Liu,
- Abstract要約: FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
- 参考スコア(独自算出の注目度): 31.95664918050255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Introducing user-specified visual concepts in image editing is highly practical as these concepts convey the user's intent more precisely than text-based descriptions. We propose FreeEdit, a novel approach for achieving such reference-based image editing, which can accurately reproduce the visual concept from the reference image based on user-friendly language instructions. Our approach leverages the multi-modal instruction encoder to encode language instructions to guide the editing process. This implicit way of locating the editing area eliminates the need for manual editing masks. To enhance the reconstruction of reference details, we introduce the Decoupled Residual ReferAttention (DRRA) module. This module is designed to integrate fine-grained reference features extracted by a detail extractor into the image editing process in a residual way without interfering with the original self-attention. Given that existing datasets are unsuitable for reference-based image editing tasks, particularly due to the difficulty in constructing image triplets that include a reference image, we curate a high-quality dataset, FreeBench, using a newly developed twice-repainting scheme. FreeBench comprises the images before and after editing, detailed editing instructions, as well as a reference image that maintains the identity of the edited object, encompassing tasks such as object addition, replacement, and deletion. By conducting phased training on FreeBench followed by quality tuning, FreeEdit achieves high-quality zero-shot editing through convenient language instructions. We conduct extensive experiments to evaluate the effectiveness of FreeEdit across multiple task types, demonstrating its superiority over existing methods. The code will be available at: https://freeedit.github.io/.
- Abstract(参考訳): 画像編集におけるユーザ特定視覚概念の導入は、テキストベースの記述よりもユーザの意図を正確に伝達するので、非常に実践的である。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現する,参照ベースの画像編集を実現するための新しいアプローチであるFreeEditを提案する。
提案手法では,マルチモーダル命令エンコーダを用いて言語命令を符号化し,編集プロセスのガイドを行う。
編集領域を見つけるという暗黙の方法は、手動の編集マスクを不要にする。
参照詳細の再構築を促進するため,Drecoupled Residual ReferAttention (DRRA)モジュールを導入する。
本モジュールは、ディテール抽出器によって抽出された微細な参照特徴を、元の自己注意に干渉することなく残像編集プロセスに統合するように設計されている。
既存のデータセットが参照ベースの画像編集タスクには適さないこと、特に参照画像を含む画像トリプレットを構築するのが難しいことを考えると、我々は新たに開発された2つの再描画方式を用いて高品質なデータセットFreeBenchをキュレートする。
FreeBenchは、編集前後のイメージ、詳細な編集命令、および、オブジェクトの追加、置換、削除などのタスクを含む、編集対象の同一性を維持する参照イメージで構成されている。
FreeBenchのフェーズドトレーニングと品質チューニングによって、FreeEditは便利な言語命令を通じて高品質なゼロショット編集を実現する。
我々は,複数のタスクタイプにまたがるFreeEditの有効性を評価するための広範囲な実験を行い,既存の手法よりも優れていることを示す。
コードは、https://freeedit.github.io/.com/で入手できる。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - SpecRef: A Fast Training-free Baseline of Specific Reference-Condition
Real Image Editing [0.0]
本研究では,特定参照条件実画像編集というタスクを提案する。
オブジェクトを特定のものに置き換えるなど、結果をさらにコントロールするための参照イメージを提供することができる。
具体的には、参照画像の特徴を取り入れた特定参照注意制御を設計し、編集領域と非編集領域の干渉を防止するマスク機構を採用する。
論文 参考訳(メタデータ) (2024-01-07T09:23:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。