論文の概要: FDS: Frequency-Aware Denoising Score for Text-Guided Latent Diffusion Image Editing
- arxiv url: http://arxiv.org/abs/2503.19191v1
- Date: Mon, 24 Mar 2025 22:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:43.365169
- Title: FDS: Frequency-Aware Denoising Score for Text-Guided Latent Diffusion Image Editing
- Title(参考訳): FDS:テキストガイドによる遅延拡散画像編集のための周波数認識デノイングスコア
- Authors: Yufan Ren, Zicong Jiang, Tong Zhang, Søren Forchhammer, Sabine Süsstrunk,
- Abstract要約: 本稿では,特定の周波数帯域を精密な編集のために選択的に最適化する,シンプルで効果的な手法を提案する。
本手法はウェーブレットを用いて複数の周波数帯域にまたがる異なる空間分解能に分解する。
提案手法を3次元テクスチャ編集に拡張し, 3次元平面表現の周波数分解を行う。
- 参考スコア(独自算出の注目度): 26.69852097694105
- License:
- Abstract: Text-guided image editing using Text-to-Image (T2I) models often fails to yield satisfactory results, frequently introducing unintended modifications, such as the loss of local detail and color changes. In this paper, we analyze these failure cases and attribute them to the indiscriminate optimization across all frequency bands, even though only specific frequencies may require adjustment. To address this, we introduce a simple yet effective approach that enables the selective optimization of specific frequency bands within localized spatial regions for precise edits. Our method leverages wavelets to decompose images into different spatial resolutions across multiple frequency bands, enabling precise modifications at various levels of detail. To extend the applicability of our approach, we provide a comparative analysis of different frequency-domain techniques. Additionally, we extend our method to 3D texture editing by performing frequency decomposition on the triplane representation, enabling frequency-aware adjustments for 3D textures. Quantitative evaluations and user studies demonstrate the effectiveness of our method in producing high-quality and precise edits.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルを用いたテキスト誘導画像編集は、しばしば満足な結果を得ることができず、局所的な詳細や色の変化などの意図しない修正を頻繁に導入する。
本稿では、これらの故障事例を解析し、特定の周波数のみに調整が必要な場合であっても、すべての周波数帯域で不特定な最適化を行う。
そこで本研究では,局所化された空間領域内の周波数帯域を選択的に最適化し,正確な編集を行うための簡易かつ効果的な手法を提案する。
本手法はウェーブレットを利用して複数の周波数帯域にまたがる異なる空間分解能に分解し、様々な詳細レベルで正確な修正を可能にする。
提案手法の適用性を高めるため,周波数領域の異なる手法の比較分析を行った。
さらに, 3次元テクスチャの周波数分解を行い, 3次元テクスチャの周波数認識調整を可能にすることで, 3次元テクスチャ編集に拡張する。
定量的評価とユーザスタディにより,高品質で正確な編集を行う上で,本手法の有効性が示された。
関連論文リスト
- Detecting Inpainted Video with Frequency Domain Insights [0.0]
本稿では、検出精度を大幅に向上させる周波数領域洞察ネットワーク(FDIN)を提案する。
公開データセットに対する以前の評価は、FDINが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-09-21T01:51:07Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Adaptive Frequency Enhancement Network for Single Image Deraining [10.64622976628013]
本稿では,単一画像のデライニングに特化して,新しいエンドツーエンド適応周波数拡張ネットワーク(AFENet)を提案する。
我々は、異なるスケールの畳み込みを用いて、画像周波数帯域を適応的に分解し、特徴拡張モジュールを導入し、新しい相互作用モジュールを示す。
このアプローチにより,多様で複雑な降雨パターンを排除し,画像の細部を正確に再構築することが可能になる。
論文 参考訳(メタデータ) (2024-07-19T13:24:05Z) - FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models [44.26371926512843]
我々は、プログレッシブな$textbfFre$qu$textbfe$ncy truncationを用いて、ユニバーサル編集タスクのための$textbfDiff$usionモデルのガイダンスを洗練するために、新しいフリーアプローチを導入する。
本手法は,様々な編集タスクや多様な画像に対して,最先端の手法で比較結果を得る。
論文 参考訳(メタデータ) (2024-04-18T04:47:28Z) - Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Holistic Dynamic Frequency Transformer for Image Fusion and Exposure Correction [18.014481087171657]
露出関連問題の修正は、画像の品質向上における重要な要素である。
本稿では、周波数領域を利用して露出補正タスクの処理を改善し、統一する新しい手法を提案する。
提案手法は, 露光補正においてより高度で統一された解を実現する方法である。
論文 参考訳(メタデータ) (2023-09-03T14:09:14Z) - High Fidelity 3D Hand Shape Reconstruction via Scalable Graph Frequency
Decomposition [77.29516516532439]
周波数分割ネットワークを設計し,周波数帯域の異なる3次元ハンドメッシュを粗い方法で生成する。
高周波パーソナライズされた詳細を捉えるため、3Dメッシュを周波数領域に変換し、新しい周波数分解損失を提案する。
提案手法は高忠実度3次元手指再建のための微細な細部情報を生成する。
論文 参考訳(メタデータ) (2023-07-08T19:26:09Z) - HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion
Guidance [19.252300247300145]
本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。
テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
論文 参考訳(メタデータ) (2023-05-30T05:56:58Z) - High Dynamic Range Image Quality Assessment Based on Frequency Disparity [78.36555631446448]
高ダイナミックレンジ(HDR)画像に対する周波数差に基づく画像品質評価(IQA)アルゴリズムを提案する。
提案したLGFMは、最先端HDR IQA法と比較して、主観的知覚との整合性が高い。
論文 参考訳(メタデータ) (2022-09-06T08:22:13Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。