論文の概要: Frequency-Forcing: From Scaling-as-Time to Soft Frequency Guidance
- arxiv url: http://arxiv.org/abs/2604.20902v1
- Date: Tue, 21 Apr 2026 17:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.079056
- Title: Frequency-Forcing: From Scaling-as-Time to Soft Frequency Guidance
- Title(参考訳): 周波数強制:スケーリング・アズ・タイムからソフトな周波数誘導へ
- Authors: Weitao Du,
- Abstract要約: 本稿では,時間的に早く成熟した補助低周波ストリームによる周波数順序付けを実現する周波数強制法を提案する。
Latent Forcingとは異なり、我々の周波数スクラッチパッドは軽量の学習可能なウェーブレットパケット変換によってデータ自体から導出される。
ImageNet-256では、周波数フォッシングは、強いピクセルと潜在空間のベースラインよりも一貫してFIDを改善し、自然にセマンティックストリームで構成し、さらなるゲインを得る。
- 参考スコア(独自算出の注目度): 5.433581405393181
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While standard flow-matching models transport noise to data uniformly, incorporating an explicit generation order - specifically, establishing coarse, low-frequency structure before fine detail - has proven highly effective for synthesizing natural images. Two recent works offer distinct paradigms for this. K-Flow imposes a hard frequency constraint by reinterpreting a frequency scaling variable as flow time, running the trajectory inside a transformed amplitude space. Latent Forcing provides a soft ordering mechanism by coupling the pixel flow with an auxiliary semantic latent flow via asynchronous time schedules, leaving the pixel interpolation path itself untouched. Viewed from the angle of improving pixel generation, we observe that forcing - guiding generation with an earlier-maturing auxiliary stream - offers a highly compatible route to scale-ordered generation without rewriting the core flow coordinate. Building on this, we propose Frequency-Forcing, which realizes K-Flow's frequency ordering through Latent Forcing's soft mechanism: a standard pixel flow is guided by an auxiliary low-frequency stream that matures earlier in time. Unlike Latent Forcing, whose scratchpad relies on a heavy pretrained encoder (e.g., DINO), our frequency scratchpad is derived from the data itself via a lightweight learnable wavelet packet transform. We term this a self-forcing signal, which avoids external dependencies while learning a basis better adapted to data statistics than the fixed bases used in hard frequency flows. On ImageNet-256, Frequency-Forcing consistently improves FID over strong pixel- and latent-space baselines, and naturally composes with a semantic stream to yield further gains. This illustrates that forcing-based scale ordering is a versatile, path-preserving alternative to hard frequency flows.
- Abstract(参考訳): 標準的なフローマッチングモデルは、ノイズをデータに均一に伝達するが、明示的な生成順序(具体的には、細部よりも粗い低周波構造を確立すること)を組み込むことで、自然画像の合成に非常に効果的であることが証明されている。
最近の2つの作品は、これに対して異なるパラダイムを提供している。
K-Flowは、周波数スケーリング変数をフロー時間として再解釈し、変換された振幅空間内で軌道を走らせることで、ハード周波数制約を課する。
Latent Forcingは、非同期時間スケジュールを通じて、ピクセルフローと補助的なセマンティック潜時フローを結合し、ピクセル補間パス自体が未タッチのままにしておくことで、ソフトな順序付けメカニズムを提供する。
画素生成を改良する角度から見ると, コアフロー座標を書き換えることなく, 初期構成の補助ストリームで生成を誘導する強制は, スケールオーダ生成への高い整合性を提供する。
そこで本研究では,Ratent ForcingのソフトメカニズムによるK-Flowの周波数順序付けを実現する周波数強制手法を提案する。
トレーニング済みの重いエンコーダ(例えばDINO)に依存しているLatent Forcingとは異なり、私たちの周波数スクラッチパッドは、軽量の学習可能なウェーブレットパケット変換によってデータ自体から導出されます。
我々はこれを自己強制信号と呼び、ハード周波数流に使用される固定基数よりもデータ統計に適応した基礎を学習しながら外部依存を避ける。
ImageNet-256では、周波数フォッシングは、強いピクセルと潜在空間のベースラインよりも一貫してFIDを改善し、自然にセマンティックストリームで構成し、さらなるゲインを得る。
このことは、強制に基づくスケールオーダリングが、ハード周波数フローに代わる汎用的で、パス保存の代替であることを示している。
関連論文リスト
- WPGRec: Wavelet Packet Guided Graph Enhanced Sequential Recommendation [9.195401107720498]
シークエンシャルレコメンデーションは、ノイズや非定常的なインタラクションストリームからユーザの興味をモデル化することを目的としている。
我々はWavelet Packet Guided Graph Enhanced Sequential Recommendation (WPGRec)を提案する。
WPGRecは、同じ長さのシフト不変なサブバンドシーケンスを生成するために、完全ツリーで非効率な定常ウェーブレットパケット変換を適用している。
そして、高次協調情報を注入するためにサブバンドワイドな相互作用グラフ伝搬を行う。
論文 参考訳(メタデータ) (2026-04-23T05:44:26Z) - Frequency-Aware Flow Matching for High-Quality Image Generation [40.59308529513355]
フローマッチングモデルは、現実的な画像生成のための強力なフレームワークとして登場した。
本稿では,周波数認識条件をフローマッチングフレームワークに明示的に組み込んだ周波数認識フローマッチングを提案する。
従来の拡散モデルDiTと流れマッチングモデルSiTをそれぞれ0.79FIDと0.58FIDに上回り、FID1.38の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-16T21:00:41Z) - KoopmanFlow: Spectrally Decoupled Generative Control Policy via Koopman Structural Bias [31.486395926173838]
Generative Control Policies(GCP)は、ロボット操作において大きな可能性を秘めているが、安定なグローバルモーションと高周波局所補正を同時にモデル化するのに苦労している。
クープマンに着想を得た構造的帰納バイアスによって導かれるパラメータ効率の良い生成ポリシーであるクープマンフローを紹介する。
論文 参考訳(メタデータ) (2026-03-14T06:23:07Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Zero-Shot Low-Light Image Enhancement via Joint Frequency Domain Priors Guided Diffusion [2.3874115898130865]
拡散サンプリングプロセスにおける光と構造情報の欠如を補うため,新しいゼロショット低光強調法を提案する。
インスピレーションはウェーブレットとフーリエ周波数領域の類似性に由来する。
十分な実験は、フレームワークが堅牢で、様々なシナリオで有効であることを示している。
論文 参考訳(メタデータ) (2024-11-21T09:16:51Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。