Fugu-MT 論文翻訳(概要): Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

論文の概要: Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

arxiv url: http://arxiv.org/abs/2409.01322v3
Date: Wed, 25 Sep 2024 14:44:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:23:46.783373
Title: Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing
Title（参考訳）: ガイド・アンド・リスケール:効果的なチューニング自由な実画像編集のためのセルフガイド機構
Authors: Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov,
Abstract要約: 本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。本研究では,入力画像の全体構造を保存するための自己誘導手法について検討する。本稿では,人間の評価と定量的分析を通じて,提案手法が望ましい編集を可能にすることを示す。
参考スコア（独自算出の注目度）: 42.73883397041092
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advances in large-scale text-to-image generative models, manipulating real images with these models remains a challenging problem. The main limitations of existing editing methods are that they either fail to perform with consistent quality on a wide range of image edits or require time-consuming hyperparameter tuning or fine-tuning of the diffusion model to preserve the image-specific appearance of the input image. We propose a novel approach that is built upon a modified diffusion sampling process via the guidance mechanism. In this work, we explore the self-guidance technique to preserve the overall structure of the input image and its local regions appearance that should not be edited. In particular, we explicitly introduce layout-preserving energy functions that are aimed to save local and global structures of the source image. Additionally, we propose a noise rescaling mechanism that allows to preserve noise distribution by balancing the norms of classifier-free guidance and our proposed guiders during generation. Such a guiding approach does not require fine-tuning the diffusion model and exact inversion process. As a result, the proposed method provides a fast and high-quality editing mechanism. In our experiments, we show through human evaluation and quantitative analysis that the proposed method allows to produce desired editing which is more preferable by humans and also achieves a better trade-off between editing quality and preservation of the original image. Our code is available at https://github.com/MACderRu/Guide-and-Rescale.
Abstract（参考訳）: 近年の大規模テキスト・画像生成モデルの発展にもかかわらず、実際の画像をこれらのモデルで操作することは難しい問題である。既存の編集方法の主な制限は、入力画像のイメージ固有の外観を維持するために、幅広い画像編集において一貫した品質で実行できないか、あるいは時間を要するハイパーパラメータチューニングや拡散モデルの微調整を必要とすることである。本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。本研究では,入力画像の全体構造と編集すべきでない局所的な外観を保存するための自己誘導技術について検討する。特に,画像の局所的および大域的構造を保存することを目的としたレイアウト保存エネルギー関数を明示的に導入する。さらに,本研究では,世代間における分類器フリーガイダンスとガイドの基準のバランスをとることで,雑音分布の保存を可能にするノイズ再スケーリング機構を提案する。このような誘導的アプローチは、拡散モデルと正確な反転過程を微調整する必要はない。その結果,提案手法は高速かつ高品質な編集機構を提供する。本実験では,人為的評価と定量的解析により,提案手法により,人間に好適な編集が可能であり,原画像の編集品質と保存のトレードオフが良好であることを示す。私たちのコードはhttps://github.com/MACderRu/Guide-and-Rescale.comで利用可能です。

関連論文リスト

EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文参考訳（メタデータ） (2025-10-23T05:06:24Z)
Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-23T20:34:43Z)
AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文参考訳（メタデータ） (2024-04-18T04:47:28Z)
Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文参考訳（メタデータ） (2024-03-14T15:07:36Z)
Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文参考訳（メタデータ） (2024-02-27T14:07:09Z)
High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-12-25T12:12:36Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文参考訳（メタデータ） (2023-05-08T12:08:12Z)
Uncovering the Disentanglement Capability in Text-to-Image Diffusion Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文参考訳（メタデータ） (2022-12-16T19:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。