論文の概要: ZONE: Zero-Shot Instruction-Guided Local Editing
- arxiv url: http://arxiv.org/abs/2312.16794v1
- Date: Thu, 28 Dec 2023 02:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:45:31.270464
- Title: ZONE: Zero-Shot Instruction-Guided Local Editing
- Title(参考訳): ZONE:ゼロショットインストラクションガイドによるローカル編集
- Authors: Shanglin Li, Bohan Zeng, Yutang Feng, Sicheng Gao, Xuhui Liu, Jiaming
Liu, Li Lin, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang
- Abstract要約: ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
- 参考スコア(独自算出の注目度): 58.24560503522924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models like Stable Diffusion have shown
remarkable power in creative image synthesis and editing.However, most existing
text-to-image editing methods encounter two obstacles: First, the text prompt
needs to be carefully crafted to achieve good results, which is not intuitive
or user-friendly. Second, they are insensitive to local edits and can
irreversibly affect non-edited regions, leaving obvious editing traces. To
tackle these problems, we propose a Zero-shot instructiON-guided local image
Editing approach, termed ZONE. We first convert the editing intent from the
user-provided instruction (e.g., ``make his tie blue") into specific image
editing regions through InstructPix2Pix. We then propose a Region-IoU scheme
for precise image layer extraction from an off-the-shelf segment model. We
further develop an edge smoother based on FFT for seamless blending between the
layer and the image.Our method allows for arbitrary manipulation of a specific
region with a single instruction while preserving the rest. Extensive
experiments demonstrate that our ZONE achieves remarkable local editing results
and user-friendliness, outperforming state-of-the-art methods.
- Abstract(参考訳): 安定拡散のような視覚言語モデルの最近の進歩は、創造的な画像合成と編集において顕著な力を示しているが、既存のテキストから画像への編集方法の多くは、2つの障害に遭遇している。
第2に、ローカルな編集に敏感で、非編集領域に不可逆的に影響を与え、明らかな編集トレースを残す。
これらの問題に対処するため,ZONEと呼ばれるゼロショットインストラクションを用いた局所画像編集手法を提案する。
まず、編集意図をユーザが提供する命令(例えば ``make his tie blue")からinstructpix2pixを通して特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
さらに、FFTに基づくエッジスムーズな画像と層をシームレスにブレンドする手法を開発し、残りの部分を保存しながら特定の領域を任意に操作する手法を提案する。
広範囲にわたる実験により,ZONEは局所的な編集結果とユーザフレンドリ性を実現し,最先端の手法よりも優れていた。
関連論文リスト
- DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Text-Driven Image Editing via Learnable Regions [79.87674394912302]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述と一致した高忠実度およびリアリズムの画像操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [19.407190860935888]
本稿では,新しいテキストガイド画像編集手法 Forgedit を提案する。
まず,視覚言語による共同学習により,与えられた画像を1分以内で再構築することを学ぶ,新しい微調整フレームワークを提案する。
また、拡散モデルにおけるUNet構造の一般的な性質を見つけ、そのような発見に触発されて、致命的な過適合問題を減少させるために、忘れる戦略を設計する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。