論文の概要: PFB-Diff: Progressive Feature Blending Diffusion for Text-driven Image
Editing
- arxiv url: http://arxiv.org/abs/2306.16894v1
- Date: Wed, 28 Jun 2023 11:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 13:39:22.336092
- Title: PFB-Diff: Progressive Feature Blending Diffusion for Text-driven Image
Editing
- Title(参考訳): PFB-Diff:テキスト駆動画像編集のための進行的特徴ブレンディング拡散
- Authors: Wenjing Huang, Shikui Tu, Lei Xu
- Abstract要約: PFB-Diffは拡散に基づく画像編集のためのプログレッシブ・フィーチャーブレンディング法である。
本手法は, 画像の忠実度, 編集精度, 効率, 忠実度において優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.19063619210761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have showcased their remarkable capability to synthesize
diverse and high-quality images, sparking interest in their application for
real image editing. However, existing diffusion-based approaches for local
image editing often suffer from undesired artifacts due to the pixel-level
blending of the noised target images and diffusion latent variables, which lack
the necessary semantics for maintaining image consistency. To address these
issues, we propose PFB-Diff, a Progressive Feature Blending method for
Diffusion-based image editing. Unlike previous methods, PFB-Diff seamlessly
integrates text-guided generated content into the target image through
multi-level feature blending. The rich semantics encoded in deep features and
the progressive blending scheme from high to low levels ensure semantic
coherence and high quality in edited images. Additionally, we introduce an
attention masking mechanism in the cross-attention layers to confine the impact
of specific words to desired regions, further improving the performance of
background editing. PFB-Diff can effectively address various editing tasks,
including object/background replacement and object attribute editing. Our
method demonstrates its superior performance in terms of image fidelity,
editing accuracy, efficiency, and faithfulness to the original image, without
the need for fine-tuning or training.
- Abstract(参考訳): 拡散モデルは、多彩で高品質な画像を合成する優れた能力を示し、実際の画像編集への応用への関心を喚起している。
しかしながら、局所的な画像編集のための既存の拡散ベースのアプローチは、ノイズの多い対象画像と拡散潜性変数のピクセルレベルでのブレンドによって、望ましくないアーティファクトに苦しむことが多い。
そこで本研究では拡散型画像編集のためのプログレッシブ機能ブレンド手法であるpfb-diffを提案する。
従来の方法とは異なり、PFB-Diffはマルチレベルの特徴ブレンディングを通じてテキスト誘導された生成コンテンツをターゲット画像にシームレスに統合する。
深い特徴を符号化したリッチなセマンティックスと、高度から低レベルのプログレッシブブレンディングスキームは、編集画像のセマンティックコヒーレンスと高品質を保証します。
また,クロスアテンション層に注意マスキング機構を導入し,特定の単語が所望の領域に与える影響を限定し,背景編集の性能をさらに向上させる。
PFB-Diffは、オブジェクト/バックグラウンド置換やオブジェクト属性編集など、様々な編集タスクに効果的に対処できる。
本手法は,画像の忠実性,編集精度,効率性,およびオリジナル画像に対する忠実性において,微調整やトレーニングを必要とせずに優れた性能を示す。
関連論文リスト
- Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - Streamlining Image Editing with Layered Diffusion Brushes [8.738398948669609]
我々のシステムは、ハイエンドの消費者向けGPUを使用して、140ミリ秒以内の512x512画像に1回の編集を行う。
提案手法は,オブジェクト属性の調整,エラー訂正,逐次的なプロンプトベースのオブジェクト配置と操作など,さまざまなタスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-05-01T04:30:03Z) - Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。