論文の概要: Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA Approach
- arxiv url: http://arxiv.org/abs/2412.03017v1
- Date: Wed, 04 Dec 2024 04:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:22.682461
- Title: Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA Approach
- Title(参考訳): 画素レベルとセマンティックレベルの調整可能な超分解能:デュアルロラアプローチ
- Authors: Lingchen Sun, Rongyuan Wu, Zhiyuan Ma, Shuaizheng Liu, Qiaosi Yi, Lei Zhang,
- Abstract要約: 本稿では,2つの LoRA モジュールを事前訓練した安定拡散(SD)モデルで学習し,改良および調整可能な SR 結果を実現する PiSA-SR を提案する。
デフォルト設定では、PiSA-SRは単一の拡散ステップで実行でき、実際のSRをリードすることで、品質と効率の両方を達成できる。
- 参考スコア(独自算出の注目度): 12.125932639897153
- License:
- Abstract: Diffusion prior-based methods have shown impressive results in real-world image super-resolution (SR). However, most existing methods entangle pixel-level and semantic-level SR objectives in the training process, struggling to balance pixel-wise fidelity and perceptual quality. Meanwhile, users have varying preferences on SR results, thus it is demanded to develop an adjustable SR model that can be tailored to different fidelity-perception preferences during inference without re-training. We present Pixel-level and Semantic-level Adjustable SR (PiSA-SR), which learns two LoRA modules upon the pre-trained stable-diffusion (SD) model to achieve improved and adjustable SR results. We first formulate the SD-based SR problem as learning the residual between the low-quality input and the high-quality output, then show that the learning objective can be decoupled into two distinct LoRA weight spaces: one is characterized by the $\ell_2$-loss for pixel-level regression, and another is characterized by the LPIPS and classifier score distillation losses to extract semantic information from pre-trained classification and SD models. In its default setting, PiSA-SR can be performed in a single diffusion step, achieving leading real-world SR results in both quality and efficiency. By introducing two adjustable guidance scales on the two LoRA modules to control the strengths of pixel-wise fidelity and semantic-level details during inference, PiSASR can offer flexible SR results according to user preference without re-training. Codes and models can be found at https://github.com/csslc/PiSA-SR.
- Abstract(参考訳): 拡散先行法は実世界の超解像(SR)において顕著な結果を示した。
しかし、既存のほとんどの手法は、訓練過程においてピクセルレベルのSR目標と意味レベルのSR目標を絡ませ、ピクセルの知能と知覚品質のバランスをとるのに苦労している。
一方、ユーザはSR結果に対して様々な好みを持っているため、再学習することなく、推論中に異なるフィデリティ・パーセプションの好みに合わせて調整可能なSRモデルを開発する必要がある。
安定拡散(SD)モデルを用いて2つの LoRA モジュールを学習し,改良および調整可能な SR 結果を得る。
まず,低品質入力と高品質出力の間の残差を学習としてSDベースのSR問題を定式化し,その学習目的を2つのLoRA重み空間に分解できることを示し,その1つは,画素レベルの回帰のために$\ell_2$-lossを特徴とし,もう1つはLPIPSと分類器の蒸留損失を特徴とし,事前訓練された分類とSDモデルから意味情報を抽出する。
デフォルト設定では、PiSA-SRは単一の拡散ステップで実行でき、実際のSRをリードすることで、品質と効率の両方を達成できる。
2つのLORAモジュールに2つの調整可能なガイダンス尺度を導入し、推論中のピクセルワイド忠実度とセマンティックレベルの詳細を制御できるようにすることで、PiSASRはユーザー好みに応じて柔軟なSR結果を提供することができる。
コードとモデルはhttps://github.com/csslc/PiSA-SRで見ることができる。
関連論文リスト
- Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。
拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文 参考訳(メタデータ) (2024-10-30T09:14:13Z) - Learning Many-to-Many Mapping for Unpaired Real-World Image
Super-resolution and Downscaling [60.80788144261183]
実世界のLR画像とHR画像の双方向多対多マッピングを教師なしで同時に学習するSDFlowと呼ばれる画像ダウンスケーリングとSRモデルを提案する。
実世界の画像SRデータセットによる実験結果から,SDFlowは定量的かつ定性的に,多様な現実的なLRとSRの画像を生成可能であることが示唆された。
論文 参考訳(メタデータ) (2023-10-08T01:48:34Z) - S2R: Exploring a Double-Win Transformer-Based Framework for Ideal and
Blind Super-Resolution [5.617008573997855]
軽量トランスを用いたSRモデル(S2Rトランス)と新しい粗大なトレーニング戦略を提案する。
提案したS2Rは、578Kパラメータしか持たない理想的なSR条件で他の単一像SRモデルより優れている。
ブラインドファジィ環境では、通常のブラインドSRモデルよりも、わずか10のグラデーションアップデートでより良い視覚結果が得られる。
論文 参考訳(メタデータ) (2023-08-16T04:27:44Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - LSR: A Light-Weight Super-Resolution Method [36.14816868964436]
LSRは、補間された低分解能画像(ILR)と高分解能画像(HR)の間の残像を自己監督フレームワークを用いて予測する。
1)教師なし学習により対象画素の近傍にリッチで多様化した表現プールを生成すること,2)教師なし学習により下層の超解像タスクに最も関係のある表現プールからサブセットを選択すること,3)回帰によって対象画素の残差を予測すること,の3つのモジュールから構成される。
論文 参考訳(メタデータ) (2023-02-27T09:02:35Z) - Blind Super-Resolution for Remote Sensing Images via Conditional
Stochastic Normalizing Flows [14.882417028542855]
本稿では、上記の問題に対処するために、正規化フロー(BlindSRSNF)に基づく新しいブラインドSRフレームワークを提案する。
BlindSRSNFは、低解像度(LR)画像が与えられた高解像度画像空間上の条件確率分布を、確率の変動境界を明示的に最適化することによって学習する。
提案アルゴリズムは,シミュレーションLRと実世界RSIの両方において,視覚的品質の優れたSR結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-14T12:37:32Z) - Hierarchical Conditional Flow: A Unified Framework for Image
Super-Resolution and Image Rescaling [139.25215100378284]
画像SRと画像再スケーリングのための統合フレームワークとして階層的条件フロー(HCFlow)を提案する。
HCFlowは、LR画像と残りの高周波成分の分布を同時にモデル化することにより、HRとLR画像ペア間のマッピングを学習する。
さらに性能を高めるために、知覚的損失やGAN損失などの他の損失と、トレーニングで一般的に使用される負の対数類似損失とを組み合わせる。
論文 参考訳(メタデータ) (2021-08-11T16:11:01Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - SRDiff: Single Image Super-Resolution with Diffusion Probabilistic
Models [19.17571465274627]
単一の画像スーパーリゾリューション(SISR)は、与えられた低リゾリューション(LR)画像から高解像度(HR)画像を再構成することを目的とする。
新規な単像超解像拡散確率モデル(SRDiff)を提案する。
SRDiffはデータ可能性の変動境界の変種に最適化されており、多様で現実的なSR予測を提供することができる。
論文 参考訳(メタデータ) (2021-04-30T12:31:25Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。