論文の概要: Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code
- arxiv url: http://arxiv.org/abs/2310.01506v1
- Date: Mon, 2 Oct 2023 18:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 19:37:50.407683
- Title: Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code
- Title(参考訳): direct inversion: 3行のコードで拡散ベースの編集を促進する
- Authors: Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, Qiang Xu
- Abstract要約: ダイレクト・インバージョン(Direct Inversion)は、たった3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術である。
PIE-Benchは700の画像の編集ベンチマークで、様々なシーンや編集タイプを示す。
最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。
- 参考スコア(独自算出の注目度): 19.988947272980848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided diffusion models have revolutionized image generation and
editing, offering exceptional realism and diversity. Specifically, in the
context of diffusion-based editing, where a source image is edited according to
a target prompt, the process commences by acquiring a noisy latent vector
corresponding to the source image via the diffusion model. This vector is
subsequently fed into separate source and target diffusion branches for
editing. The accuracy of this inversion process significantly impacts the final
editing outcome, influencing both essential content preservation of the source
image and edit fidelity according to the target prompt. Prior inversion
techniques aimed at finding a unified solution in both the source and target
diffusion branches. However, our theoretical and empirical analyses reveal that
disentangling these branches leads to a distinct separation of responsibilities
for preserving essential content and ensuring edit fidelity. Building on this
insight, we introduce "Direct Inversion," a novel technique achieving optimal
performance of both branches with just three lines of code. To assess image
editing performance, we present PIE-Bench, an editing benchmark with 700 images
showcasing diverse scenes and editing types, accompanied by versatile
annotations and comprehensive evaluation metrics. Compared to state-of-the-art
optimization-based inversion techniques, our solution not only yields superior
performance across 8 editing methods but also achieves nearly an order of
speed-up.
- Abstract(参考訳): テキスト誘導拡散モデルは画像生成と編集に革命をもたらし、例外的なリアリズムと多様性を提供している。
具体的には、ターゲットプロンプトに応じてソース画像が編集される拡散ベース編集の文脈において、拡散モデルを介してソース画像に対応するノイズの潜在ベクトルを取得して処理を開始する。
このベクトルはその後、編集のために別々のソースとターゲット拡散ブランチに供給される。
この反転過程の精度は、最終的な編集結果に大きく影響し、ソース画像の必須コンテンツ保存と、ターゲットプロンプトに応じた編集忠実度の両方に影響を与える。
先行反転技術は、ソースとターゲットの拡散ブランチの両方で統一解を見つけることを目的としている。
しかし,本研究の理論的・実証的分析により,本質的コンテンツの保存と編集の忠実性を確保するための責任が分担されることが判明した。
この知見に基づいて、3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術であるDirect Inversionを紹介する。
画像編集性能を評価するために,多様なシーンと編集タイプを示す700画像の編集ベンチマークpie-benchと,多彩なアノテーションと総合的な評価指標を提案する。
最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。