論文の概要: OP4KSR: One-Step Patch-Free 4K Super-Resolution with Periodic Artifact Suppression
- arxiv url: http://arxiv.org/abs/2605.13457v1
- Date: Wed, 13 May 2026 12:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.048879
- Title: OP4KSR: One-Step Patch-Free 4K Super-Resolution with Periodic Artifact Suppression
- Title(参考訳): OP4KSR: 周期的アーチファクト抑制によるワンステップパッチフリー4Kスーパーリゾリューション
- Authors: Chengyan Deng, Pengbin Yu, Zhentao Chen, Wei Shen, Kai Zhang, Meng Li, Lunxi Yuan, Xue Zhou, Li Yu,
- Abstract要約: 本稿では,強力なFluxバックボーン上に構築された1ステップのパッチフリー4K SRアプローチであるOP4KSRを提案する。
極端に圧縮されたF16 VAEを利用することで、OP4KSRは実用的なGPU予算の下で4K SR推論を抽出できる。
実験では、OP4KSRは効率的な推論で競合する知覚品質を実現し、1つのNVIDIA H20 GPU上でわずか5.75秒で4096times4096$出力を生成する。
- 参考スコア(独自算出の注目度): 20.145400733963218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based real-world image super-resolution (Real-ISR) has achieved remarkable perceptual quality; however, directly super-resolving images to 4K remains limited by extreme memory consumption. Consequently, prior methods adopt patch-based inference, sacrificing global context and introducing semantic confusion, spatial inconsistency, and severe latency. We propose OP4KSR, a one-step patch-free 4K SR approach built upon the powerful Flux backbone. By leveraging the extreme-compression F16 VAE, OP4KSR makes 4K SR inference tractable under practical GPU budgets, preserving global spatial-semantic coherence while enabling highly efficient inference. However, adapting this one-step architecture intrinsically triggers severe periodic artifacts. We trace this to a RoPE base frequency allocation mismatch and intra-token spatial ambiguity, both exacerbated by the lack of iterative refinement. To suppress these artifacts, we couple RoPE base frequency rescaling (RFR) with an autocorrelation-based periodicity loss ($\mathcal{L}_\text{AP}$). Furthermore, we curate a dedicated training dataset alongside three benchmarks (one synthetic and two real-world) to advance 4K SR research. Extensive experiments demonstrate that OP4KSR achieves competitive perceptual quality with efficient inference, generating a $4096\times4096$ output in only 5.75 seconds on a single NVIDIA H20 GPU.
- Abstract(参考訳): 拡散に基づく実世界の超解像(Real-ISR)は目覚しい品質を達成しているが、4Kへの直接超解像は極端なメモリ消費によって制限されている。
その結果、従来の手法ではパッチベースの推論を採用し、グローバルなコンテキストを犠牲にし、意味的混乱、空間的不整合、重度のレイテンシを導入している。
本稿では,強力なFluxバックボーン上に構築された1ステップのパッチフリー4K SRアプローチであるOP4KSRを提案する。
OP4KSR は、超圧縮 F16 VAE を活用することにより、4K SR 推論を実用的な GPU 予算下で抽出可能とし、グローバル空間意味コヒーレンスを保ち、高効率な推論を可能にする。
しかし、このワンステップアーキテクチャを適用することは、本質的に深刻な周期的アーティファクトを引き起こす。
我々はこれを,反復的改善の欠如によりさらに悪化した,RoPEベース周波数割り当てミスマッチとトーケン内空間曖昧さに追従した。
これらのアーティファクトを抑制するため、RoPEベース周波数再スケーリング(RFR)を自己相関に基づく周期損失(\mathcal{L}_\text{AP}$)と組み合わせる。
さらに、4K SR研究を進めるために、3つのベンチマーク(1つの合成と2つの実世界)と共に専用のトレーニングデータセットをキュレートする。
大規模な実験では、OP4KSRは効率的な推論で競合する知覚品質を達成し、1つのNVIDIA H20 GPU上でわずか5.75秒で4096\times4096$出力を生成する。
関連論文リスト
- LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing [24.861880909272998]
LiBrA-NetはUHDビデオデハージングの新しいベンチマークである。
UHV-4Kは、すべてのフレームに深度、透過度、光フローアノテーションを備えた最初の4Kビデオデハージングベンチマークである。
論文 参考訳(メタデータ) (2026-05-12T04:27:03Z) - UHD-GPGNet: UHD Video Denoising via Gaussian-Process-Guided Local Spatio-Temporal Modeling [23.717691801109638]
プロセス誘導型局所時間認知フレームワークを提案する。
構造カラー協調再建ヘッドデテール, クロマ, 高周波補正
実世界のスマートフォンで撮影された4Kビデオでは、合成記述子で完全に訓練されたモデルが、本物のセンサーノイズに一般化されていることが確認されている。
論文 参考訳(メタデータ) (2026-04-13T05:27:30Z) - UHD Low-Light Image Enhancement via Real-Time Enhancement Methods with Clifford Information Fusion [51.51707075741303]
幾何学的特徴融合に基づく新しいリアルタイムUHD低照度拡張ネットワークを提案する。
本手法は,1台のコンシューマグレードデバイス上での4K/8K画像に対するミリ秒レベルの推論を実現する。
論文 参考訳(メタデータ) (2026-04-10T13:47:04Z) - Q-DiT4SR: Exploration of Detail-Preserving Diffusion Transformer Quantization for Real-World Image Super-Resolution [47.12618295041499]
提案するQ-DiT4SRは,DiTベースのReal-ISRに適したPTQフレームワークである。
H-SVDは,グローバルな低ランク分岐とローカルなブロックワイドランク1分岐をマッチングパラメータ予算の下で統合する階層的SVDである。
複数の実世界のデータセットの実験により、我々のQ-DiT4SRは、W4A6とW4A4設定の両方でSOTA性能を達成することが示された。
論文 参考訳(メタデータ) (2026-02-01T15:07:59Z) - UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios [11.829523789114377]
我々は、MultiAspect-4K-1Mで4Kで訓練されたFluxベースのDiTであるUltraFluxを紹介する。
モデル側では、UltraFluxは4Kでのトレーニングウインドウ、周波数、AR対応の位置符号化のためにResonance 2D RoPEとYaRNを結合する。
4096年のAesthetic-EvalベンチマークとマルチAR 4K設定では、UltraFluxはフィデリティ、美学、アライメントのメトリクスで、強力なオープンソースベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-22T13:07:21Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - 4K-HAZE: A Dehazing Benchmark with 4K Resolution Hazy and Haze-Free
Images [12.402054374952485]
まず、シーンの深さを推定し、光線とオブジェクトの反射率をシミュレートし、GANを用いて合成画像を実際の領域に移行する。
これらの合成画像を4K-HAZEデータセットと呼ばれるベンチマークにラップする。
このアプローチの最も魅力的な側面は、24G RAMをリアルタイムで(33fps)1つのGPU上で4Kイメージを実行する機能です。
論文 参考訳(メタデータ) (2023-03-28T09:39:29Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。