論文の概要: FRAMER: Frequency-Aligned Self-Distillation with Adaptive Modulation Leveraging Diffusion Priors for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2512.01390v1
- Date: Mon, 01 Dec 2025 08:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.75585
- Title: FRAMER: Frequency-Aligned Self-Distillation with Adaptive Modulation Leveraging Diffusion Priors for Real-World Image Super-Resolution
- Title(参考訳): FRAMER: リアルタイム超解像における適応変調を用いた周波数適応自己蒸留
- Authors: Seungho Choi, Jeahun Sung, Jihyong Oh,
- Abstract要約: 実像超解像(Real-ISR)は、混合された未知の劣化を伴うLR入力からHR画像の復元を目指している。
バックボーンや推論を変更せずに拡散先を利用するプラグイン・アンド・プレイのトレーニングスキームであるFRAMERを紹介する。
- 参考スコア(独自算出の注目度): 6.767948729335409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-image super-resolution (Real-ISR) seeks to recover HR images from LR inputs with mixed, unknown degradations. While diffusion models surpass GANs in perceptual quality, they under-reconstruct high-frequency (HF) details due to a low-frequency (LF) bias and a depth-wise "low-first, high-later" hierarchy. We introduce FRAMER, a plug-and-play training scheme that exploits diffusion priors without changing the backbone or inference. At each denoising step, the final-layer feature map teaches all intermediate layers. Teacher and student feature maps are decomposed into LF/HF bands via FFT masks to align supervision with the model's internal frequency hierarchy. For LF, an Intra Contrastive Loss (IntraCL) stabilizes globally shared structure. For HF, an Inter Contrastive Loss (InterCL) sharpens instance-specific details using random-layer and in-batch negatives. Two adaptive modulators, Frequency-based Adaptive Weight (FAW) and Frequency-based Alignment Modulation (FAM), reweight per-layer LF/HF signals and gate distillation by current similarity. Across U-Net and DiT backbones (e.g., Stable Diffusion 2, 3), FRAMER consistently improves PSNR/SSIM and perceptual metrics (LPIPS, NIQE, MANIQA, MUSIQ). Ablations validate the final-layer teacher and random-layer negatives.
- Abstract(参考訳): 実像超解像(Real-ISR)は、混合された未知の劣化を伴うLR入力からHR画像の復元を目指している。
拡散モデルは知覚的品質でGANを超えるが、低周波(LF)バイアスと深さワイドな「低第一、高次」階層のため、高周波(HF)の詳細を過度に再構成する。
バックボーンや推論を変更せずに拡散先を利用するプラグイン・アンド・プレイのトレーニングスキームであるFRAMERを紹介する。
各段階において、最終層の特徴写像はすべての中間層を教える。
教師と学生の特徴マップは、FFTマスクを介してLF/HFバンドに分解され、モデルの内部周波数階層と調整される。
LFの場合、イントラコントラシブロス(IntraCL)はグローバルな共有構造を安定化させる。
HFの場合、InterCL(Inter Contrastive Loss)はランダム層とバッチ内の負を使ってインスタンス固有の詳細をシャープする。
2つの適応変調器、周波数ベースの適応重み(FAW)と周波数ベースのアライメント変調(FAM)、層ごとのLF/HF信号の再重み付け、電流類似性によるゲート蒸留。
U-NetとDiTのバックボーン全体(例えば、安定拡散2, 3)では、FRAMERはPSNR/SSIMと知覚メトリクス(LPIPS, NIQE, MANIQA, MUSIQ)を一貫して改善している。
アブレーションは、最終層教師とランダム層ネガティブを検証します。
関連論文リスト
- SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection [6.042897432654865]
Spectral-cONtrastive Audio Residuals (AR)は、ディープフェイクオーディオ検出器のための周波数誘導フレームワークである。
ARは音声信号を補完表現に切り離す。
ASVspoof 2021およびin-the-wildベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-26T12:16:38Z) - Rethinking Diffusion Model-Based Video Super-Resolution: Leveraging Dense Guidance from Aligned Features [51.5076190312734]
ビデオ超解法アプローチは、エラーの蓄積、空間的アーティファクト、知覚的品質と忠実さのトレードオフに悩まされる。
ビデオ超解像(DGAF-VSR)に適した特徴を持つ新しい誘導拡散モデルを提案する。
合成および実世界のデータセットの実験では、DGAF-VSRがVSRの重要な側面において最先端の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-11-21T03:40:45Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - DiffPR: Diffusion-Based Phase Reconstruction via Frequency-Decoupled Learning [4.560284382063488]
オフアクシス定量的位相イメージング(QPI)に深層学習を適用する場合、過平滑化は持続的な問題である。
この問題をスペクトルバイアスに追従し、ハイレベルなスキップ接続によってバイアスが強化されていることを示す。
2段階の周波数分離フレームワークであるDiffPRを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:08:45Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - STAF: Sinusoidal Trainable Activation Functions for Implicit Neural Representation [7.2888019138115245]
Inlicit Neural Representations (INR) は、連続的な信号をモデリングするための強力なフレームワークとして登場した。
ReLUベースのネットワークのスペクトルバイアスは、十分に確立された制限であり、ターゲット信号の微細な詳細を捕捉する能力を制限する。
Sinusoidal Trainable Function Activation (STAF)について紹介する。
STAFは本質的に周波数成分を変調し、自己適応型スペクトル学習を可能にする。
論文 参考訳(メタデータ) (2025-02-02T18:29:33Z) - Few-shot NeRF by Adaptive Rendering Loss Regularization [78.50710219013301]
スパース入力を用いた新しいビュー合成はニューラルラジアンス場(NeRF)に大きな課題をもたらす
近年の研究では、位置レンダリングの周波数規則化は、数発のNeRFに対して有望な結果が得られることが示されている。
我々は,AR-NeRFと呼ばれる数発のNeRFに対して適応レンダリング損失正規化を提案する。
論文 参考訳(メタデータ) (2024-10-23T13:05:26Z) - Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。
FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。
包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文 参考訳(メタデータ) (2024-08-23T07:30:34Z) - Frequency Compensated Diffusion Model for Real-scene Dehazing [6.105813272271171]
本研究では,実ヘイズへの一般化を改善する条件付き拡散モデルに基づく脱ヘイズフレームワークについて考察する。
提案手法は, 実世界の画像において, 最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-08-21T06:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。