Fugu-MT 論文翻訳(概要): One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting

論文の概要: One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting

arxiv url: http://arxiv.org/abs/2510.08273v1
Date: Thu, 09 Oct 2025 14:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 17:54:15.12972
Title: One Stone with Two Birds: A Null-Text-Null Frequency-Aware Diffusion Models for Text-Guided Image Inpainting
Title（参考訳）: 2羽の鳥を持つ1羽の石:テキストガイド画像塗布のためのNull-Text-Null周波数対応拡散モデル
Authors: Haipeng Liu, Yang Wang, Meng Wang,
Abstract要約: テキスト誘導画像のインペイントは、テキストプロンプトに従ってマスクされた領域を再構築することを目的としている。我々は、テキスト誘導画像のインペイントのための、textbfNTN-Diffと呼ばれるNull-text-null周波数対応拡散モデルを提案する。
参考スコア（独自算出の注目度）: 10.830941311992746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-guided image inpainting aims at reconstructing the masked regions as per text prompts, where the longstanding challenges lie in the preservation for unmasked regions, while achieving the semantics consistency between unmasked and inpainted masked regions. Previous arts failed to address both of them, always with either of them to be remedied. Such facts, as we observed, stem from the entanglement of the hybrid (e.g., mid-and-low) frequency bands that encode varied image properties, which exhibit different robustness to text prompts during the denoising process. In this paper, we propose a null-text-null frequency-aware diffusion models, dubbed \textbf{NTN-Diff}, for text-guided image inpainting, by decomposing the semantics consistency across masked and unmasked regions into the consistencies as per each frequency band, while preserving the unmasked regions, to circumvent two challenges in a row. Based on the diffusion process, we further divide the denoising process into early (high-level noise) and late (low-level noise) stages, where the mid-and-low frequency bands are disentangled during the denoising process. As observed, the stable mid-frequency band is progressively denoised to be semantically aligned during text-guided denoising process, which, meanwhile, serves as the guidance to the null-text denoising process to denoise low-frequency band for the masked regions, followed by a subsequent text-guided denoising process at late stage, to achieve the semantics consistency for mid-and-low frequency bands across masked and unmasked regions, while preserve the unmasked regions. Extensive experiments validate the superiority of NTN-Diff over the state-of-the-art diffusion models to text-guided diffusion models. Our code can be accessed from https://github.com/htyjers/NTN-Diff.
Abstract（参考訳）: テキスト誘導画像のインペインティングは、マスクされた領域をテキストのプロンプトに従って再構築することを目的としており、マスクされていない領域のセマンティクスの整合性を達成しつつ、マスキングされていない領域の保存に長年の課題が伴う。それまでの芸術は両者に対処できず、常にそのどちらかを修復する必要があった。このような事実は、私たちが観察したように、様々な画像特性を符号化するハイブリッド(例えば、中低)周波数帯域の絡み合いから来ており、復調過程においてテキストプロンプトに対して異なる堅牢性を示す。本稿では、マスキング領域とマスキング領域のセマンティクスの整合性を各周波数帯域に分解し、2つの課題を連続的に回避し、ヌルテキスト-ヌル周波数対応拡散モデルである「textbf{NTN-Diff}」を提案する。拡散過程に基づき,より早期(高レベルノイズ)と後期(低レベルノイズ)に分割する。一方、安定中周波帯は、マスキング領域の低周波帯を識別するヌルテキスト復調過程のガイダンスとして、マスキング領域とマスキング領域の中間および低周波帯のセマンティクス整合性を達成するために、マスキング領域の低周波帯の復調過程に続いて、段階的に段階的に進行する。テキスト誘導拡散モデルに対する最先端拡散モデルよりもNTN-Diffの方が優れていることを検証する。私たちのコードはhttps://github.com/htyjers/NTN-Diffからアクセスできます。

関連論文リスト

InfSplign: Inference-Time Spatial Alignment of Text-to-Image Diffusion Models [27.206678799411645]
InfSplignは、テキスト・ツー・イメージ・モデルのためのトレーニング不要な推論時間法である。除音ステップ毎に複合損失によってノイズを調整することで空間アライメントを改善する。既存の最強の推論時間ベースラインよりもパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-12-19T17:52:43Z)
Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation [48.203403471536866]
本稿では,異なる画素に異なるタイムステップを割り当て,画素単位の分解過程を再構成する新しいフレームワークを提案する。実験により、非同期拡散モデルにより、多様なプロンプト間のテキスト・画像のアライメントが大幅に改善できることが実証された。
論文参考訳（メタデータ） (2025-10-06T05:45:56Z)
Blind-Spot Guided Diffusion for Self-supervised Real-World Denoising [55.099717395320276]
Blind-Spot Guided Diffusionは、現実のイメージをデノナイズするための新しい自己教師型フレームワークである。提案手法は,盲点ネットワーク(BSN)の限界と,自己教師型認知への拡散モデルの適用の難しさの2つに対処する。
論文参考訳（メタデータ） (2025-09-19T15:35:07Z)
Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文参考訳（メタデータ） (2025-05-27T17:54:24Z)
PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models [10.767325147254574]
これら2つの要因に対処するための2つの重要な要素を持つ新しいトレーニング不要なアプローチであるPiCo(Pick-and-Control)を提案する。まず、ランダムノイズの品質を評価し、対象のテキストに適したノイズかどうかを判定するノイズ選択モジュールを開発する。第2に,画素レベルのマスクを生成するための参照マスクモジュールを導入し,横断アテンションマップを正確に調整する。
論文参考訳（メタデータ） (2025-05-06T05:38:13Z)
Towards Understanding the Working Mechanism of Text-to-Image Diffusion Model [57.24046436423511]
近年,高画質テキスト・トゥ・イメージ(T2I)生成に強力な遅延拡散確率モデル (DPM) が適用されている。段階的デノナイジング生成過程における中間状態を調べることでDPMの背後にあるメカニズムを解明する。本稿では,テキストガイダンスを適切に取り除き,T2I生成プロセスの高速化に本観測を適用した。
論文参考訳（メタデータ） (2024-05-24T08:12:41Z)
Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting [18.773724519657446]
画像塗布用拡散確率モデルのデノイングは、前処理中に画像のテクスチャにノイズを加えることを目的としており、逆デノイング処理により、テクスチャの未加工領域でマスク領域を復元することを目的としている。意味のある意味論の生成にもかかわらず、既存の芸術は、意味的に密集した未成熟のテクスチャが完全に劣化せず、仮面の領域は拡散過程において純粋なノイズに変化し、それらの大きな違いをもたらすため、仮面と未成熟の領域間の意味的な相違に悩まされる。従来のテクスチャ・デノナイズ法を改良したStrDiffusionという構造誘導拡散モデルを提案する。
論文参考訳（メタデータ） (2024-03-29T00:40:12Z)
Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文参考訳（メタデータ） (2023-06-14T05:25:06Z)
Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models [43.83732051916894]
ミスマッチを伴わずに全体像をコヒーレントに描けるCOPAINTを提案する。 COPAINTはまた、ベイジアンフレームワークを使用して、明らかにされていない領域と未公開領域の両方を共同で修正している。実験により,COPAINTは,客観的,主観的両方の指標の下で,既存の拡散法よりも優れていることを確認した。
論文参考訳（メタデータ） (2023-04-06T18:35:13Z)
Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-02-23T06:20:29Z)
FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文参考訳（メタデータ） (2021-08-10T03:12:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。