論文の概要: Faithful Extreme Image Rescaling with Learnable Reversible Transformation and Semantic Priors
- arxiv url: http://arxiv.org/abs/2605.00605v1
- Date: Fri, 01 May 2026 12:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.94445
- Title: Faithful Extreme Image Rescaling with Learnable Reversible Transformation and Semantic Priors
- Title(参考訳): 学習可能な可逆変換とセマンティックプリミティブを用いた忠実なエクストリームイメージ再スケーリング
- Authors: Hao Wei, Yanhui Zhou, Chenyang Ge, Saeed Anwar, Ajmal Mian,
- Abstract要約: FaithEIRは、極端なイメージ再スケーリングのための拡散ベースのフレームワークである。
特異値分解にインスパイアされ、学習可能な可逆変換を開発する。
量子化による情報損失を補うために,前もって適応的な詳細情報を提案する。
- 参考スコア(独自算出の注目度): 46.54433210034761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent extreme rescaling methods struggle to preserve semantically consistent structures and produce realistic details, due to the severely ill-posed nature of low- to high-resolution mapping under scaling factors of $16\times$ or higher. To alleviate the above problems, we propose FaithEIR, a diffusion-based framework for extreme image rescaling. Inspired by singular value decomposition, we develop learnable reversible transformation that enables invertible downscaling and upscaling in the latent space. To compensate for information loss due to quantization, we propose an adaptive detail prior, a high-frequency dictionary that captures the empirical average of commonly occurring structures in the training data. Finally, we design a lightweight pixel semantic embedder to provide semantic conditioning for the pretrained diffusion model. We present extensive experimental results demonstrating that our FaithEIR consistently outperforms state-of-the-art methods, achieving superior reconstruction fidelity and perceptual quality. Our code, model weights, and detailed results are released at https://github.com/cshw2021/FaithEIR.
- Abstract(参考訳): 最近の極端な再スケーリング手法は、16ドル以上のスケーリング係数の下で、低解像度から高解像度のマッピングが著しく不適切な性質を持つため、意味的に一貫した構造を保存し、現実的な詳細を生成するのに苦労している。
上記の問題を緩和するために,極端画像再スケーリングのための拡散ベースのフレームワークであるFaithEIRを提案する。
特異値分解にインスパイアされた学習可能可逆変換は、潜在空間における可逆的なダウンスケーリングとアップスケーリングを可能にする。
量子化による情報損失を補うために、トレーニングデータにおいて一般的に発生する構造の経験的平均をキャプチャする高周波辞書、適応ディテールを前もって提案する。
最後に,事前学習した拡散モデルに対するセマンティックコンディショニングを提供するために,軽量な画素セマンティックインバータを設計する。
以上の結果から,FithEIRは最先端の手法よりも優れ,再現精度と知覚品質に優れていたことが示唆された。
私たちのコード、モデルウェイト、詳細な結果はhttps://github.com/cshw2021/FaithEIR.comで公開されています。
関連論文リスト
- SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。
我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。
SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文 参考訳(メタデータ) (2025-08-10T13:48:07Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。