論文の概要: One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting
- arxiv url: http://arxiv.org/abs/2510.08273v1
- Date: Thu, 09 Oct 2025 14:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.12972
- Title: One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting
- Title(参考訳): 2羽の鳥を持つ1羽の石:テキストガイド画像塗布のためのNull-Text-Null周波数対応拡散モデル
- Authors: Haipeng Liu, Yang Wang, Meng Wang,
- Abstract要約: テキスト誘導画像のインペイントは、テキストプロンプトに従ってマスクされた領域を再構築することを目的としている。
我々は、テキスト誘導画像のインペイントのための、textbfNTN-Diffと呼ばれるNull-text-null周波数対応拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 10.830941311992746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image inpainting aims at reconstructing the masked regions as per text prompts, where the longstanding challenges lie in the preservation for unmasked regions, while achieving the semantics consistency between unmasked and inpainted masked regions. Previous arts failed to address both of them, always with either of them to be remedied. Such facts, as we observed, stem from the entanglement of the hybrid (e.g., mid-and-low) frequency bands that encode varied image properties, which exhibit different robustness to text prompts during the denoising process. In this paper, we propose a null-text-null frequency-aware diffusion models, dubbed \textbf{NTN-Diff}, for text-guided image inpainting, by decomposing the semantics consistency across masked and unmasked regions into the consistencies as per each frequency band, while preserving the unmasked regions, to circumvent two challenges in a row. Based on the diffusion process, we further divide the denoising process into early (high-level noise) and late (low-level noise) stages, where the mid-and-low frequency bands are disentangled during the denoising process. As observed, the stable mid-frequency band is progressively denoised to be semantically aligned during text-guided denoising process, which, meanwhile, serves as the guidance to the null-text denoising process to denoise low-frequency band for the masked regions, followed by a subsequent text-guided denoising process at late stage, to achieve the semantics consistency for mid-and-low frequency bands across masked and unmasked regions, while preserve the unmasked regions. Extensive experiments validate the superiority of NTN-Diff over the state-of-the-art diffusion models to text-guided diffusion models. Our code can be accessed from https://github.com/htyjers/NTN-Diff.
- Abstract(参考訳): テキスト誘導画像のインペインティングは、マスクされた領域をテキストのプロンプトに従って再構築することを目的としており、マスクされていない領域のセマンティクスの整合性を達成しつつ、マスキングされていない領域の保存に長年の課題が伴う。
それまでの芸術は両者に対処できず、常にそのどちらかを修復する必要があった。
このような事実は、私たちが観察したように、様々な画像特性を符号化するハイブリッド(例えば、中低)周波数帯域の絡み合いから来ており、復調過程においてテキストプロンプトに対して異なる堅牢性を示す。
本稿では、マスキング領域とマスキング領域のセマンティクスの整合性を各周波数帯域に分解し、2つの課題を連続的に回避し、ヌルテキスト-ヌル周波数対応拡散モデルである「textbf{NTN-Diff}」を提案する。
拡散過程に基づき,より早期(高レベルノイズ)と後期(低レベルノイズ)に分割する。
一方、安定中周波帯は、マスキング領域の低周波帯を識別するヌルテキスト復調過程のガイダンスとして、マスキング領域とマスキング領域の中間および低周波帯のセマンティクス整合性を達成するために、マスキング領域の低周波帯の復調過程に続いて、段階的に段階的に進行する。
テキスト誘導拡散モデルに対する最先端拡散モデルよりもNTN-Diffの方が優れていることを検証する。
私たちのコードはhttps://github.com/htyjers/NTN-Diffからアクセスできます。
関連論文リスト
- Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation [48.203403471536866]
本稿では,異なる画素に異なるタイムステップを割り当て,画素単位の分解過程を再構成する新しいフレームワークを提案する。
実験により、非同期拡散モデルにより、多様なプロンプト間のテキスト・画像のアライメントが大幅に改善できることが実証された。
論文 参考訳(メタデータ) (2025-10-06T05:45:56Z) - Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model [57.24046436423511]
近年,高画質テキスト・トゥ・イメージ(T2I)生成に強力な遅延拡散確率モデル (DPM) が適用されている。
段階的デノナイジング生成過程における中間状態を調べることでDPMの背後にあるメカニズムを解明する。
本稿では,テキストガイダンスを適切に取り除き,T2I生成プロセスの高速化に本観測を適用した。
論文 参考訳(メタデータ) (2024-05-24T08:12:41Z) - Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting [18.773724519657446]
画像塗布用拡散確率モデルのデノイングは、前処理中に画像のテクスチャにノイズを加えることを目的としており、逆デノイング処理により、テクスチャの未加工領域でマスク領域を復元することを目的としている。
意味のある意味論の生成にもかかわらず、既存の芸術は、意味的に密集した未成熟のテクスチャが完全に劣化せず、仮面の領域は拡散過程において純粋なノイズに変化し、それらの大きな違いをもたらすため、仮面と未成熟の領域間の意味的な相違に悩まされる。
従来のテクスチャ・デノナイズ法を改良したStrDiffusionという構造誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T00:40:12Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z) - FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for
Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。
本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文 参考訳(メタデータ) (2021-08-10T03:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。