論文の概要: Perceptual Similarity guidance and text guidance optimization for
Editing Real Images using Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.06680v1
- Date: Sat, 9 Dec 2023 02:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:56:31.799159
- Title: Perceptual Similarity guidance and text guidance optimization for
Editing Real Images using Guided Diffusion Models
- Title(参考訳): 誘導拡散モデルを用いた実画像編集のための知覚類似性指導とテキスト指導最適化
- Authors: Ruichen Zhang
- Abstract要約: 我々は、変更されていない領域において、元の領域に高い忠実性を維持するために、二重誘導アプローチを適用した。
この方法では、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存が保証される。
- 参考スコア(独自算出の注目度): 0.6345523830122168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When using a diffusion model for image editing, there are times when the
modified image can differ greatly from the source. To address this, we apply a
dual-guidance approach to maintain high fidelity to the original in areas that
are not altered. First, we employ text-guided optimization, using text
embeddings to direct latent space and classifier-free guidance. Second, we use
perceptual similarity guidance, optimizing latent vectors with posterior
sampling via Tweedie formula during the reverse process. This method ensures
the realistic rendering of both the edited elements and the preservation of the
unedited parts of the original image.
- Abstract(参考訳): 画像編集に拡散モデルを用いる場合、修正された画像がソースと大きく異なる場合がある。
これに対処するために、変更されていない領域においてオリジナルに対して高い忠実性を維持するためにデュアルガイドアプローチを適用する。
まず,テキスト埋め込みを用いて遅延空間を指示し,分類器を含まない指導を行う。
第二に、知覚的類似性誘導を用いて、逆過程におけるTweedie式による後方サンプリングによる潜時ベクトルの最適化を行う。
この方法は、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存を保証する。
関連論文リスト
- Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - Zero-shot Text-driven Physically Interpretable Face Editing [29.32334174584623]
本稿では、任意のテキストプロンプトに基づく顔編集のための、新しく物理的に解釈可能な手法を提案する。
本手法は, 同一性が高く, 画像品質が高い物理的に解釈可能な顔編集結果を生成することができる。
論文 参考訳(メタデータ) (2023-08-11T07:20:24Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。