論文の概要: StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing
- arxiv url: http://arxiv.org/abs/2303.15649v2
- Date: Sun, 20 Aug 2023 11:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:25:33.264915
- Title: StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing
- Title(参考訳): stylediffusion:テキストベースの編集のためのプロンプトエンベディングインバージョン
- Authors: Senmao Li, Joost van de Weijer, Taihang Hu, Fahad Shahbaz Khan, Qibin
Hou, Yaxing Wang, Jian Yang
- Abstract要約: 我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
- 参考スコア(独自算出の注目度): 86.92711729969488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant research effort is focused on exploiting the amazing capacities
of pretrained diffusion models for the editing of images. They either finetune
the model, or invert the image in the latent space of the pretrained model.
However, they suffer from two problems: (1) Unsatisfying results for selected
regions, and unexpected changes in nonselected regions. (2) They require
careful text prompt editing where the prompt should include all visual objects
in the input image. To address this, we propose two improvements: (1) Only
optimizing the input of the value linear network in the cross-attention layers,
is sufficiently powerful to reconstruct a real image. (2) We propose attention
regularization to preserve the object-like attention maps after editing,
enabling us to obtain accurate style editing without invoking significant
structural changes. We further improve the editing technique which is used for
the unconditional branch of classifier-free guidance, as well as the
conditional one as used by P2P. Extensive experimental prompt-editing results
on a variety of images, demonstrate qualitatively and quantitatively that our
method has superior editing capabilities than existing and concurrent works.
- Abstract(参考訳): 重要な研究は、画像編集のための事前訓練された拡散モデルの驚くべきキャパシティを活用することに焦点を当てている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
しかし,(1)選抜地域における不満足な結果と,非選抜地域における予期せぬ変化の2つの問題に苦しむ。
2) 入力画像にすべての視覚オブジェクトを含める場合には, 注意深いテキストプロンプトの編集が必要である。
そこで本研究では,(1)有向層における値線形ネットワークの入力を最適化するだけで,実画像の再構成に十分強力である,という2つの改良点を提案する。
2) 対象に類似した注意図を編集後保存するための注意規則化を提案し, 重要な構造的変化を招くことなく, 正確なスタイルの編集を行えるようにした。
さらに,分類器なし指導の無条件分岐に用いる編集技術や,p2pが使用する条件分岐技術も改良した。
様々な画像に対する広範囲な実験的なプロンプト編集結果から,本手法が既存および同時処理よりも優れた編集能力を有することを示す。
関連論文リスト
- ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [67.96788532285649]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。