論文の概要: LUSD: Localized Update Score Distillation for Text-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2503.11054v1
- Date: Fri, 14 Mar 2025 03:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:15.313493
- Title: LUSD: Localized Update Score Distillation for Text-Guided Image Editing
- Title(参考訳): LUSD:テキストガイドによる画像編集のためのローカルアップデートスコア蒸留
- Authors: Worameth Chinchuthakun, Tossaporn Saengja, Nontawat Tritrong, Pitchaporn Rewatbowornwong, Pramook Khungurn, Supasorn Suwajanakorn,
- Abstract要約: 近年の研究では, テキスト・ツー・イメージ拡散モデルに先立って, 豊かな生成を生かしたスコア蒸留技術が導入されている。
注意に基づく空間正規化と勾配フィルタリング-正規化の2つの簡易かつ効果的な修正を提案する。
実験結果から,本手法は,最先端の蒸留技術よりも高速な忠実度を実現し,背景を保ちながら良好な編集を行なえることを示した。
- 参考スコア(独自算出の注目度): 11.293199854940772
- License:
- Abstract: While diffusion models show promising results in image editing given a target prompt, achieving both prompt fidelity and background preservation remains difficult. Recent works have introduced score distillation techniques that leverage the rich generative prior of text-to-image diffusion models to solve this task without additional fine-tuning. However, these methods often struggle with tasks such as object insertion. Our investigation of these failures reveals significant variations in gradient magnitude and spatial distribution, making hyperparameter tuning highly input-specific or unsuccessful. To address this, we propose two simple yet effective modifications: attention-based spatial regularization and gradient filtering-normalization, both aimed at reducing these variations during gradient updates. Experimental results show our method outperforms state-of-the-art score distillation techniques in prompt fidelity, improving successful edits while preserving the background. Users also preferred our method over state-of-the-art techniques across three metrics, and by 58-64% overall.
- Abstract(参考訳): 拡散モデルは対象のプロンプトが与えられた画像編集において有望な結果を示すが、迅速な忠実さと背景保存の両立は困難である。
近年の研究では、テキストから画像への拡散モデルのリッチな生成を利用したスコア蒸留技術を導入し、微調整を伴わずにこの課題を解決している。
しかし、これらの手法はオブジェクト挿入のようなタスクとしばしば苦労する。
これらの故障を調査した結果、勾配の等級や空間分布に有意な変化が見られ、ハイパーパラメーターチューニングは入力特異性が高いか、あるいは失敗する。
これを解決するために、注意に基づく空間正規化と勾配フィルタリング正規化の2つの簡易かつ効果的な修正を提案する。
実験結果から,本手法は,最先端の蒸留技術よりも高速な忠実度を実現し,背景を保ちながら良好な編集を行なえることを示した。
ユーザは3つのメトリクスをまたいだ最先端技術よりも,私たちの方法の方が58~64%好んでいました。
関連論文リスト
- PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。