Fugu-MT 論文翻訳(概要): ZONE: Zero-Shot Instruction-Guided Local Editing

論文の概要: ZONE: Zero-Shot Instruction-Guided Local Editing

arxiv url: http://arxiv.org/abs/2312.16794v2
Date: Fri, 12 Apr 2024 09:04:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 19:25:50.675566
Title: ZONE: Zero-Shot Instruction-Guided Local Editing
Title（参考訳）: ZONE:ゼロショットインストラクションガイドによるローカル編集
Authors: Shanglin Li, Bohan Zeng, Yutang Feng, Sicheng Gao, Xuhui Liu, Jiaming Liu, Li Lin, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang,
Abstract要約: ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。 InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
参考スコア（独自算出の注目度）: 56.56213730578504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in vision-language models like Stable Diffusion have shown remarkable power in creative image synthesis and editing.However, most existing text-to-image editing methods encounter two obstacles: First, the text prompt needs to be carefully crafted to achieve good results, which is not intuitive or user-friendly. Second, they are insensitive to local edits and can irreversibly affect non-edited regions, leaving obvious editing traces. To tackle these problems, we propose a Zero-shot instructiON-guided local image Editing approach, termed ZONE. We first convert the editing intent from the user-provided instruction (e.g., "make his tie blue") into specific image editing regions through InstructPix2Pix. We then propose a Region-IoU scheme for precise image layer extraction from an off-the-shelf segment model. We further develop an edge smoother based on FFT for seamless blending between the layer and the image.Our method allows for arbitrary manipulation of a specific region with a single instruction while preserving the rest. Extensive experiments demonstrate that our ZONE achieves remarkable local editing results and user-friendliness, outperforming state-of-the-art methods. Code is available at https://github.com/lsl001006/ZONE.
Abstract（参考訳）: 安定拡散(Stable Diffusion)のような視覚言語モデルの最近の進歩は、創造的な画像合成と編集において顕著な力を示しているが、既存のテキスト-画像編集手法では2つの障害に遭遇している。第2に、ローカル編集に敏感で、非編集領域に不可逆的に影響を与え、明らかな編集トレースを残している。これらの問題に対処するため,ZONEと呼ばれるゼロショットインストラクションを用いた局所画像編集手法を提案する。まず、ユーザが提供する命令(例:「ネクタイブルー」)から、InstructPix2Pixを通して特定の画像編集領域に変換する。次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。さらに、FFTに基づくエッジスムーズな画像と層をシームレスにブレンドする手法を開発し、残りの部分を保存しながら特定の領域を任意に操作する手法を提案する。大規模な実験により,ZONEは局所的な編集結果とユーザフレンドリさを顕著に達成し,最先端の手法よりも優れていた。コードはhttps://github.com/lsl001006/ZONEで入手できる。

関連論文リスト

SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文参考訳（メタデータ） (2025-12-26T14:59:41Z)
NEP: Autoregressive Image Editing via Next Editing Token Prediction [16.69384738678215]
本稿では,自動回帰画像生成に基づくNext Editing-token Prediction(NEP)として画像編集を定式化することを提案する。我々のモデルは、ゼロショット方式でその生成を反復的に精錬することで、テスト時間スケーリング(TTS)を自然にサポートします。
論文参考訳（メタデータ） (2025-08-08T06:06:34Z)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。 FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳（メタデータ） (2025-03-25T16:59:42Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文参考訳（メタデータ） (2023-09-19T12:05:26Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-12-05T02:10:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。