論文の概要: Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training
- arxiv url: http://arxiv.org/abs/2512.05132v1
- Date: Fri, 28 Nov 2025 09:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.745388
- Title: Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training
- Title(参考訳): Breaking Scale Anchoring:低分解能トレーニングによる高精度高分解能推論のための周波数表現学習
- Authors: Wenshuo Wang, Fan Zhang,
- Abstract要約: Zero-Shot Super-Resolution Spatiotemporal Forecastingでは、低解像度データに基づいてディープラーニングモデルをトレーニングし、高解像度データに対する推論のためにデプロイする必要がある。
既存の研究は、異なる解像度で類似した誤差を維持することは、一般化の成功を示すものであると考えている。
数値解法の代替となるディープラーニングモデルは、分解能が増大するにつれてエラーを減らす必要がある。
- 参考スコア(独自算出の注目度): 5.24655241578805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-Shot Super-Resolution Spatiotemporal Forecasting requires a deep learning model to be trained on low-resolution data and deployed for inference on high-resolution. Existing studies consider maintaining similar error across different resolutions as indicative of successful multi-resolution generalization. However, deep learning models serving as alternatives to numerical solvers should reduce error as resolution increases. The fundamental limitation is, the upper bound of physical law frequencies that low-resolution data can represent is constrained by its Nyquist frequency, making it difficult for models to process signals containing unseen frequency components during high-resolution inference. This results in errors being anchored at low resolution, incorrectly interpreted as successful generalization. We define this fundamental phenomenon as a new problem distinct from existing issues: Scale Anchoring. Therefore, we propose architecture-agnostic Frequency Representation Learning. It alleviates Scale Anchoring through resolution-aligned frequency representations and spectral consistency training: on grids with higher Nyquist frequencies, the frequency response in high-frequency bands of FRL-enhanced variants is more stable. This allows errors to decrease with resolution and significantly outperform baselines within our task and resolution range, while incurring only modest computational overhead.
- Abstract(参考訳): Zero-Shot Super-Resolution Spatiotemporal Forecastingでは、低解像度データに基づいてディープラーニングモデルをトレーニングし、高解像度データに対する推論のためにデプロイする必要がある。
既存の研究では、異なる分解能をまたいだ類似した誤差を、多分解能の一般化の成功の指標と見なしている。
しかし,数値解法の代替となる深層学習モデルは,分解能が増大するにつれて誤差を低減する必要がある。
基本的な制限は、低分解能データが表現できる物理法則の上限は、そのNyquist周波数によって制約されるため、高分解能推論中に目に見えない周波数成分を含む信号を処理することは困難である。
この結果、誤差は低分解能で固定され、誤って一般化が成功していると解釈される。
私たちはこの基本的な現象を,既存の問題とは異なる新たな問題として定義しています。
そこで本研究では,アーキテクチャに依存しない周波数表現学習を提案する。
分解能に整合した周波数表現とスペクトル整合性トレーニングによりスケールアンカリングを緩和する:高いニキスト周波数のグリッドでは、FRL強化の高周波帯域の周波数応答はより安定である。
これにより、エラーは解像度で減少し、タスクと解像度の範囲内でベースラインを著しく上回るが、計算オーバーヘッドはわずかである。
関連論文リスト
- QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion [50.43304425256732]
FreeScaleは、スケール融合による高解像度のビジュアル生成を可能にする、チューニング不要な推論パラダイムである。
画像モデルとビデオモデルの両方において高解像度の視覚生成機能を拡張する。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion [63.609399000712905]
スケールした解像度での推論は反復的なパターンと構造的歪みをもたらす。
これらの問題を解決するために組み合わせた2つの単純なモジュールを提案する。
我々の手法はファム拡散と呼ばれ、任意の潜在拡散モデルにシームレスに統合でき、追加の訓練を必要としない。
論文 参考訳(メタデータ) (2024-11-27T17:51:44Z) - FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency Loss [5.349799154834945]
本稿では、新しい任意スケール超解像法であるFreqINR(FreqINR)について述べる。
トレーニングでは,適応離散コサイン変換周波数損失(adaptive Discrete Cosine Transform Frequency Loss,ADFL)を用いて,HR画像と地絡画像の周波数ギャップを最小化する。
推論の際には,低分解能(LR)画像と地軸画像のスペクトルコヒーレンスを維持するために受容場を拡張した。
論文 参考訳(メタデータ) (2024-08-25T03:53:17Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [19.327571569959062]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
これは、高忠実度超解像結果で先行生成法より優れる。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Incremental Spatial and Spectral Learning of Neural Operators for
Solving Large-Scale PDEs [86.35471039808023]
Incrmental Fourier Neural Operator (iFNO)を導入し、モデルが使用する周波数モードの数を徐々に増加させる。
iFNOは、各種データセット間の一般化性能を維持したり改善したりしながら、トレーニング時間を短縮する。
提案手法は,既存のフーリエニューラル演算子に比べて20%少ない周波数モードを用いて,10%低いテスト誤差を示すとともに,30%高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2022-11-28T09:57:15Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。