論文の概要: OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs
- arxiv url: http://arxiv.org/abs/2412.09465v1
- Date: Thu, 12 Dec 2024 17:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:18.300126
- Title: OFTSR: One-Step Flow for Image Super-Resolution with Tunable Fidelity-Realism Trade-offs
- Title(参考訳): OFTSR: 可変忠実度-リアリズムトレードオフによる画像超解像の一ステップフロー
- Authors: Yuanzhi Zhu, Ruiqing Wang, Shilin Lu, Junnan Li, Hanshu Yan, Kai Zhang,
- Abstract要約: OFTSRはワンステップ画像超解像のためのフローベースフレームワークであり、可変レベルの忠実度とリアリズムで出力を生成することができる。
我々は,一段階画像の超高解像度化を実現するとともに,忠実現実主義のトレードオフを柔軟に調整できることを実証した。
- 参考スコア(独自算出の注目度): 20.652907645817713
- License:
- Abstract: Recent advances in diffusion and flow-based generative models have demonstrated remarkable success in image restoration tasks, achieving superior perceptual quality compared to traditional deep learning approaches. However, these methods either require numerous sampling steps to generate high-quality images, resulting in significant computational overhead, or rely on model distillation, which usually imposes a fixed fidelity-realism trade-off and thus lacks flexibility. In this paper, we introduce OFTSR, a novel flow-based framework for one-step image super-resolution that can produce outputs with tunable levels of fidelity and realism. Our approach first trains a conditional flow-based super-resolution model to serve as a teacher model. We then distill this teacher model by applying a specialized constraint. Specifically, we force the predictions from our one-step student model for same input to lie on the same sampling ODE trajectory of the teacher model. This alignment ensures that the student model's single-step predictions from initial states match the teacher's predictions from a closer intermediate state. Through extensive experiments on challenging datasets including FFHQ (256$\times$256), DIV2K, and ImageNet (256$\times$256), we demonstrate that OFTSR achieves state-of-the-art performance for one-step image super-resolution, while having the ability to flexibly tune the fidelity-realism trade-off. Code and pre-trained models are available at https://github.com/yuanzhi-zhu/OFTSR and https://huggingface.co/Yuanzhi/OFTSR, respectively.
- Abstract(参考訳): 近年の拡散モデルとフローベース生成モデルの進歩は画像復元作業において顕著な成功を収めており、従来のディープラーニング手法と比較して知覚品質が優れている。
しかし、これらの手法は、高品質な画像を生成するために多くのサンプリングステップを必要とするか、あるいはモデル蒸留に依存しているため、通常は固定された忠実現実主義のトレードオフを課し、柔軟性に欠ける。
本稿では,一段階画像超解像のための新しいフローベースフレームワークOFTSRを紹介する。
提案手法はまず,教師モデルとして機能する条件付きフローベース超解像モデルを訓練する。
次に、専門的な制約を適用して、この教師モデルを蒸留する。
具体的には,1段階の学生モデルから同じ入力に対して,教師モデルの同じサンプルODE軌道上に配置するよう強制する。
このアライメントにより、初期状態からの学生モデルのシングルステップ予測が、より近い中間状態からの教師の予測と一致することが保証される。
FFHQ(256$\times$256)、DIV2K(256$\times$256)、ImageNet(256$\times$256)などの挑戦的なデータセットに関する広範な実験を通じて、OFTSRが1ステップ画像の超解像に対して最先端のパフォーマンスを達成すると同時に、忠実現実主義のトレードオフを柔軟に調整できることを実証した。
コードと事前訓練されたモデルは、https://github.com/yuanzhi-zhu/OFTSRとhttps://huggingface.co/Yuanzhi/OFTSRでそれぞれ提供されている。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Enhancing Diffusion Models with 3D Perspective Geometry Constraints [10.21800236402905]
本稿では、視点精度を向上させるために、生成モデルのトレーニングプロセスに新しい幾何学的制約を導入する。
この制約でトレーニングされたモデルの出力は、どちらもよりリアルに見え、生成した画像に基づいてトレーニングされた下流モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-01T21:56:43Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - A Two-step-training Deep Learning Framework for Real-time Computational
Imaging without Physics Priors [0.0]
本稿では,物理を前提としないリアルタイムな計算画像作成のための2段階学習用DL(TST-DL)フレームワークを提案する。
まず、モデルを直接学習するために、単一の完全接続層(FCL)をトレーニングする。
そして、このFCLを未訓練のU-Netアーキテクチャで固定固定し、第2ステップのトレーニングを行い、出力画像の忠実性を改善する。
論文 参考訳(メタデータ) (2020-01-10T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。