論文の概要: Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing
- arxiv url: http://arxiv.org/abs/2403.09468v2
- Date: Mon, 15 Jul 2024 08:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:35:33.473890
- Title: Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing
- Title(参考訳): エタインバージョン:拡散に基づく実画像編集のための最適エタ関数の設計
- Authors: Wonjun Kang, Kevin Galim, Hyung Il Koo,
- Abstract要約: 実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
- 参考スコア(独自算出の注目度): 2.5602836891933074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in the domain of text-guided image generation and, more recently, in text-guided image editing. A commonly adopted strategy for editing real images involves inverting the diffusion process to obtain a noisy representation of the original image, which is then denoised to achieve the desired edits. However, current methods for diffusion inversion often struggle to produce edits that are both faithful to the specified text prompt and closely resemble the source image. To overcome these limitations, we introduce a novel and adaptable diffusion inversion technique for real image editing, which is grounded in a theoretical analysis of the role of $\eta$ in the DDIM sampling equation for enhanced editability. By designing a universal diffusion inversion method with a time- and region-dependent $\eta$ function, we enable flexible control over the editing extent. Through a comprehensive series of quantitative and qualitative assessments, involving a comparison with a broad array of recent methods, we demonstrate the superiority of our approach. Our method not only sets a new benchmark in the field but also significantly outperforms existing strategies.
- Abstract(参考訳): 拡散モデルはテキスト誘導画像生成の領域において顕著な成功を収め、最近ではテキスト誘導画像編集において顕著な成功を収めている。
実際の画像を編集するための一般的に採用されている戦略は、拡散過程を反転させて元の画像のノイズ表現を取得し、所望の編集を達成するためにデノライズされる。
しかし、現在の拡散反転法は、しばしば特定のテキストプロンプトに忠実で、ソース画像によく似ている編集を生成するのに苦労する。
これらの制約を克服するために, DDIMサンプリング式における$\eta$の役割の理論的解析を基礎とした, 実画像編集のための新規かつ適応的な拡散反転手法を提案する。
時間および地域依存の$\eta$関数で普遍拡散反転法を設計することにより、編集範囲を柔軟に制御できる。
定量的および定性的評価の包括的シリーズを通じて,近年の手法との比較を行い,本手法の優位性を実証した。
提案手法は,新しいベンチマークをフィールドに設定するだけでなく,既存の戦略を著しく上回っている。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code [19.988947272980848]
ダイレクト・インバージョン(Direct Inversion)は、たった3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術である。
PIE-Benchは700の画像の編集ベンチマークで、様々なシーンや編集タイプを示す。
最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。
論文 参考訳(メタデータ) (2023-10-02T18:01:55Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。