論文の概要: FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation
- arxiv url: http://arxiv.org/abs/2509.01107v1
- Date: Mon, 01 Sep 2025 04:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.543344
- Title: FICGen: Frequency-Inspired Contextual Disentanglement for Layout-driven Degraded Image Generation
- Title(参考訳): FICGen:レイアウト駆動劣化画像生成のための周波数インスパイアされたコンテキスト歪み
- Authors: Wenzhuang Wang, Yifan Zhao, Mingcan Ma, Ming Liu, Zhonglin Jiang, Yong Chen, Jia Li,
- Abstract要約: FICGenは劣化した画像の周波数知識を潜伏拡散空間に移そうとしている。
FICGenは、生成的忠実度、アライメント、下流補助訓練性の観点から、既存のL2Iメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 16.628211648386454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout-to-image (L2I) generation has exhibited promising results in natural domains, but suffers from limited generative fidelity and weak alignment with user-provided layouts when applied to degraded scenes (i.e., low-light, underwater). We primarily attribute these limitations to the "contextual illusion dilemma" in degraded conditions, where foreground instances are overwhelmed by context-dominant frequency distributions. Motivated by this, our paper proposes a new Frequency-Inspired Contextual Disentanglement Generative (FICGen) paradigm, which seeks to transfer frequency knowledge of degraded images into the latent diffusion space, thereby facilitating the rendering of degraded instances and their surroundings via contextual frequency-aware guidance. To be specific, FICGen consists of two major steps. Firstly, we introduce a learnable dual-query mechanism, each paired with a dedicated frequency resampler, to extract contextual frequency prototypes from pre-collected degraded exemplars in the training set. Secondly, a visual-frequency enhanced attention is employed to inject frequency prototypes into the degraded generation process. To alleviate the contextual illusion and attribute leakage, an instance coherence map is developed to regulate latent-space disentanglement between individual instances and their surroundings, coupled with an adaptive spatial-frequency aggregation module to reconstruct spatial-frequency mixed degraded representations. Extensive experiments on 5 benchmarks involving a variety of degraded scenarios-from severe low-light to mild blur-demonstrate that FICGen consistently surpasses existing L2I methods in terms of generative fidelity, alignment and downstream auxiliary trainability.
- Abstract(参考訳): L2I(Layout-to-image)世代は、自然界において有望な結果を示したが、劣化したシーン(低照度、水中)に適用した場合に、限られた生成的忠実さと、ユーザが提供するレイアウトとの整合性に悩まされている。
これらの制限は、主に劣化した状況における「コンテキスト錯覚ジレンマ(contextual illusion dilemma)」に起因し、前景のインスタンスは文脈に支配的な周波数分布によって圧倒される。
そこで本研究では、劣化した画像の周波数知識を遅延拡散空間に伝達し、劣化したインスタンスとその周辺を文脈的周波数認識誘導によりレンダリングするFICGen( Frequency-Inspired Contextual Disentanglement Generative)パラダイムを提案する。
具体的には、FICGenは2つの大きなステップから構成される。
まず、学習可能なデュアルクエリ機構を導入し、それぞれに専用周波数再サンプリング器を組み、事前コンパイルした劣化事例から文脈周波数のプロトタイプを抽出する。
第2に、劣化生成プロセスに周波数プロトタイプを注入するために、視覚周波数強調注意を用いる。
文脈的錯覚と属性の漏洩を軽減するため、個別のインスタンスとその周辺における潜時空間のゆがみを調節するインスタンスコヒーレンスマップと、適応的な空間周波数集約モジュールとを組み合わせて、空間周波数混合分解表現を再構成する。
FICGenが既存のL2I法を連続的に上回り、生成の忠実さ、アライメント、下流の補助訓練可能性の点で上回っている、厳しい低照度から緩やかな曖昧度まで、様々な劣化シナリオを含む5つのベンチマークに関する広範な実験を行った。
関連論文リスト
- Exploring Fourier Prior and Event Collaboration for Low-Light Image Enhancement [1.8724535169356553]
イベントカメラは低照度画像強調のための性能向上を提供する。
現在、既存のイベントベースのメソッドは、フレームとイベントを直接単一のモデルにフィードする。
本稿では,振幅-位相絡み付き可視性回復ネットワークを提案する。
第2段階では、空間的ミスマッチを軽減するために、動的アライメントを伴う融合戦略を提案する。
論文 参考訳(メタデータ) (2025-08-01T04:25:00Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Dual Frequency Branch Framework with Reconstructed Sliding Windows Attention for AI-Generated Image Detection [12.523297358258345]
GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。
GAN(Generative Adversarial Networks)と拡散モデルにより、高度にリアルな合成画像の作成が可能になった。
AI生成画像の検出は、重要な課題として浮上している。
論文 参考訳(メタデータ) (2025-01-25T15:53:57Z) - Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection [43.49146665908238]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて不可欠だが複雑なオープンセットタスクである。
摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
2次元離散コサイン変換(DCT)を用いて、高周波(局所)と低周波(球状)の運動成分を分離する。
論文 参考訳(メタデータ) (2024-12-04T05:43:53Z) - Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。