論文の概要: Frequency-Aware Flow Matching for High-Quality Image Generation
- arxiv url: http://arxiv.org/abs/2604.15521v1
- Date: Thu, 16 Apr 2026 21:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.650766
- Title: Frequency-Aware Flow Matching for High-Quality Image Generation
- Title(参考訳): 高品質画像生成のための周波数認識フローマッチング
- Authors: Sucheng Ren, Qihang Yu, Ju He, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen,
- Abstract要約: フローマッチングモデルは、現実的な画像生成のための強力なフレームワークとして登場した。
本稿では,周波数認識条件をフローマッチングフレームワークに明示的に組み込んだ周波数認識フローマッチングを提案する。
従来の拡散モデルDiTと流れマッチングモデルSiTをそれぞれ0.79FIDと0.58FIDに上回り、FID1.38の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 40.59308529513355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow matching models have emerged as a powerful framework for realistic image generation by learning to reverse a corruption process that progressively adds Gaussian noise. However, because noise is injected in the latent domain, its impact on different frequency components is non-uniform. As a result, during inference, flow matching models tend to generate low-frequency components (global structure) in the early stages, while high-frequency components (fine details) emerge only later in the reverse process. Building on this insight, we propose Frequency-Aware Flow Matching (FreqFlow), a novel approach that explicitly incorporates frequency-aware conditioning into the flow matching framework via time-dependent adaptive weighting. We introduce a two-branch architecture: (1) a frequency branch that separately processes low- and high-frequency components to capture global structure and refine textures and edges, and (2) a spatial branch that synthesizes images in the latent domain, guided by the frequency branch's output. By explicitly integrating frequency information into the generation process, FreqFlow ensures that both large-scale coherence and fine-grained details are effectively modeled low-frequency conditioning reinforces global structure, while high-frequency conditioning enhances texture fidelity and detail sharpness. On the class-conditional ImageNet-256 generation benchmark, our method achieves state-of-the-art performance with an FID of 1.38, surpassing the prior diffusion model DiT and flow matching model SiT by 0.79 and 0.58 FID, respectively. Code is available at https://github.com/OliverRensu/FreqFlow.
- Abstract(参考訳): フローマッチングモデルは、ガウスノイズを徐々に加える汚職過程の逆転を学ぶことによって、現実的な画像生成のための強力なフレームワークとして登場した。
しかし、雑音は潜伏領域に注入されるため、異なる周波数成分に対する影響は均一ではない。
その結果,フローマッチングモデルでは早期に低周波成分(球状構造)を発生させる傾向がみられた。
この知見に基づいて、時間依存適応重み付けにより、周波数認識条件をフローマッチングフレームワークに明示的に組み込む新しいアプローチである周波数認識フローマッチング(FreqFlow)を提案する。
本研究では,(1)大域構造を捉え,テクスチャやエッジを洗練するために,低周波成分と高周波成分を別々に処理する周波数分岐と,(2)周波数分岐の出力に導かれる潜時領域の画像を合成する空間分岐を導入する。
周波数情報を生成プロセスに明示的に統合することにより、FreqFlowは、大規模コヒーレンスと細部細部の両方が効果的にモデル化され、低周波条件付けがグローバル構造を補強し、高周波条件付けはテクスチャの忠実度と細部シャープネスを高める。
クラス条件の ImageNet-256 生成ベンチマークでは,従来の拡散モデル DiT とフローマッチングモデル SiT をそれぞれ 0.79 FID と 0.58 FID で上回り,FID 1.38 の最先端性能を実現する。
コードはhttps://github.com/OliverRensu/FreqFlow.comで入手できる。
関連論文リスト
- Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。
画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。
高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文 参考訳(メタデータ) (2025-06-19T13:28:09Z) - F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation [10.67983913373955]
F2Netは、UHR画像を特殊な処理のために高周波数成分と低周波数成分に分解する周波数認識フレームワークである。
ハイブリッド周波数融合モジュールは、2つの新しい目的によって導かれるこれらの観測を統合する。
F2Netは、それぞれ80.22のmIoUと83.39の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-09T15:09:49Z) - FourierFlow: Frequency-aware Flow Matching for Generative Turbulence Modeling [10.73187148812722]
本稿では,スペクトルバイアスと共通モード雑音を暗黙的かつ明示的に緩和することにより,周波数認識学習を向上させる新しい生成乱流モデリングフレームワークを提案する。
FourierFlowは,3つの重要なイノベーションで構成されている。まず,局地的認識を備えた健全なフローアテンションブランチと,センシティブな乱流領域に焦点を当てたデュアルブランチバックボーンアーキテクチャを採用する。
第3に、マスク付きオートエンコーダの高周波モデリング機能を活用し、生成モデルの特徴を高周波成分に暗黙的にアライメントする。
論文 参考訳(メタデータ) (2025-06-01T06:59:27Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency [9.668149257194887]
周波数収束不整合を解消するためのウェーブレットベースのステレオマッチングフレームワーク(ウェーブレット・ステレオ)を提案する。
高周波数成分と低周波成分を別々に処理することで、我々は、エッジにおける高周波情報とスムーズな領域における低周波情報を同時に洗練することができる。
論文 参考訳(メタデータ) (2025-05-23T15:28:03Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering [47.442844594442455]
NextFrequency Image Generation (NFIG)は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。
NFIGは生成過程を自然な画像構造と整合させる。
これは最初に低周波成分を生成し、トークンを著しく少なくして効率的にグローバル構造を捉え、その後、徐々に高周波の細部を付加することで実現している。
論文 参考訳(メタデータ) (2025-03-10T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。