Fugu-MT 論文翻訳(概要): MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path

論文の概要: MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path

arxiv url: http://arxiv.org/abs/2303.16765v2
Date: Thu, 30 Mar 2023 11:42:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 15:51:12.779722
Title: MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path
Title（参考訳）: MDP:拡散経路の操作によるテキストガイド画像編集のための汎用フレームワーク
Authors: Qian Wang, Biao Zhang, Michael Birsak, Peter Wonka
Abstract要約: 我々は,適切な操作を行うための設計空間を記述したMDPというフレームワークを提案する。我々は,中間潜伏,条件埋め込み,クロスアテンションマップ,ガイダンス,予測ノイズを含む5つの異なる操作を同定する。
参考スコア（独自算出の注目度）: 46.88926203020054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image generation using diffusion can be controlled in multiple ways. In this paper, we systematically analyze the equations of modern generative diffusion networks to propose a framework, called MDP, that explains the design space of suitable manipulations. We identify 5 different manipulations, including intermediate latent, conditional embedding, cross attention maps, guidance, and predicted noise. We analyze the corresponding parameters of these manipulations and the manipulation schedule. We show that some previous editing methods fit nicely into our framework. Particularly, we identified one specific configuration as a new type of control by manipulating the predicted noise, which can perform higher-quality edits than previous work for a variety of local and global edits.
Abstract（参考訳）: 拡散を利用した画像生成は複数の方法で制御できる。本稿では,現代的な生成拡散ネットワークの方程式を体系的に解析し,適切な操作の設計空間を説明するmdpと呼ばれる枠組みを提案する。我々は,中間潜伏,条件埋め込み,クロスアテンションマップ,ガイダンス,予測ノイズを含む5つの異なる操作を同定する。これらの操作の対応するパラメータと操作スケジュールを解析する。従来の編集手法が私たちのフレームワークにうまく適合していることを示します。特に,予測ノイズを操作することで,従来よりも高品質な編集を行うことができる新しいタイプの制御方法として,特定の構成を同定した。

関連論文リスト

PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。提案手法は, 利用者の77～90%に好まれる。
論文参考訳（メタデータ） (2025-02-06T13:08:43Z)
Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文参考訳（メタデータ） (2024-12-30T16:56:44Z)
EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文参考訳（メタデータ） (2024-12-05T02:05:33Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文参考訳（メタデータ） (2024-03-14T15:07:36Z)
Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文参考訳（メタデータ） (2024-02-27T14:07:09Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)
Zero-shot Inversion Process for Image Attribute Editing with Diffusion Models [9.924851219904843]
本稿では,事前学習した拡散モデルのセマンティック潜在空間に生成した視覚参照とテキストガイダンスの融合を注入するフレームワークを提案する。提案したZIPは、小さなニューラルネットワークのみを使用して、テキストプロンプトの直感的な制御の下で、多様なコンテンツや属性を生成する。最先端の手法と比較して、ZIPはリアルな編集効果を提供しながら、同等の画質の画像を生成する。
論文参考訳（メタデータ） (2023-08-30T08:40:15Z)
Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models [4.855820180160146]
本稿では,画像の拡散に基づく新しい画像編集フレームワークを提案する。提案手法は,品質と速度を編集するGAN法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-05T04:39:08Z)
Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文参考訳（メタデータ） (2020-11-24T02:18:08Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。