Fugu-MT 論文翻訳(概要): GenDR: Lightning Generative Detail Restorator

論文の概要: GenDR: Lightning Generative Detail Restorator

arxiv url: http://arxiv.org/abs/2503.06790v1
Date: Sun, 09 Mar 2025 22:02:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.62987
Title: GenDR: Lightning Generative Detail Restorator
Title（参考訳）: GenDR: ライトニング生成詳細レノレータ
Authors: Yan Wang, Shijie Zhao, Kai Chen, Kexin Zhang, Junlin Li, Li Zhang,
Abstract要約: 我々は,より大きい潜伏空間を持つテーラー拡散モデルから抽出した生成詳細復元のための1段階拡散モデルGenDRを提案する。実験の結果,GenDRは定量的な測定値と視覚的忠実度の両方で最先端の性能を達成できた。
参考スコア（独自算出の注目度）: 18.465568249533966
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent research applying text-to-image (T2I) diffusion models to real-world super-resolution (SR) has achieved remarkable success. However, fundamental misalignments between T2I and SR targets result in a dilemma between inference speed and detail fidelity. Specifically, T2I tasks prioritize multi-step inversion to synthesize coherent outputs aligned with textual prompts and shrink the latent space to reduce generating complexity. Contrariwise, SR tasks preserve most information from low-resolution input while solely restoring high-frequency details, thus necessitating sufficient latent space and fewer inference steps. To bridge the gap, we present a one-step diffusion model for generative detail restoration, GenDR, distilled from a tailored diffusion model with larger latent space. In detail, we train a new SD2.1-VAE16 (0.9B) via representation alignment to expand latent space without enlarging the model size. Regarding step-distillation, we propose consistent score identity distillation (CiD) that incorporates SR task-specific loss into score distillation to leverage more SR priors and align the training target. Furthermore, we extend CiD with adversarial learning and representation alignment (CiDA) to enhance perceptual quality and accelerate training. We also polish the pipeline to achieve a more efficient inference. Experimental results demonstrate that GenDR achieves state-of-the-art performance in both quantitative metrics and visual fidelity.
Abstract（参考訳）: 近年,テキスト・トゥ・イメージ(T2I)拡散モデルによる実世界の超解像(SR)への応用が目覚ましい成功を収めている。しかし、T2I と SR の目標の基本的な相違は、推論速度と細部忠実度の間にジレンマをもたらす。具体的には、T2Iタスクは、テキストプロンプトに整合したコヒーレントな出力を合成し、遅延空間を縮小し、生成の複雑さを低減するために、マルチステップのインバージョンを優先する。対照的に、SRタスクは、高頻度の詳細のみを復元しながら、低解像度入力からほとんどの情報を保存し、十分な潜在空間を必要とし、推論ステップを少なくする。このギャップを埋めるために、我々は、より大きい潜伏空間を持つテーラー拡散モデルから蒸留した、生成詳細復元のための1段階拡散モデルGenDRを提案する。詳細は、モデルサイズを大きくすることなく遅延空間を拡張するために、新しいSD2.1-VAE16 (0.9B) を表現アライメントを介してトレーニングする。ステップ蒸留については、SRタスク固有の損失をスコア蒸留に組み込んだ一貫したスコアアイデンティティ蒸留(CiD)を提案し、より多くのSR事前の活用とトレーニング目標の整合を図る。さらに、CiDを対向学習・表現アライメント(CiDA)で拡張し、知覚的品質を高め、トレーニングを加速する。さらにパイプラインを洗練して,より効率的な推論を実現しています。実験の結果,GenDRは定量的な測定値と視覚的忠実度の両方で最先端の性能を達成できた。

関連論文リスト

One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。 VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文参考訳（メタデータ） (2025-06-03T08:28:13Z)
Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
GuideSR: Rethinking Guidance for One-Step High-Fidelity Diffusion-Based Super-Resolution [15.563111624900865]
GuideSRは、画像の忠実度を高めるために特別に設計された、単一ステップ拡散に基づく画像超解像(SR)モデルである。提案手法は,PSNR, SSIM, LPIPS, DISTS, FIDなど,様々な基準ベースの指標において,既存の手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-01T17:48:25Z)
Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文参考訳（メタデータ） (2025-03-25T09:56:21Z)
TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [25.994093587158808]
事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文参考訳（メタデータ） (2024-11-27T12:01:08Z)
Latent Diffusion, Implicit Amplification: Efficient Continuous-Scale Super-Resolution for Remote Sensing Images [7.920423405957888]
E$2$DiffSRは、最先端のSR手法と比較して、客観的な指標と視覚的品質を達成する。拡散に基づくSR法の推論時間を非拡散法と同程度のレベルに短縮する。
論文参考訳（メタデータ） (2024-10-30T09:14:13Z)
ConsisSR: Delving Deep into Consistency in Diffusion-based Image Super-Resolution [28.945663118445037]
実世界の超解像(Real-ISR)は、未知の複雑な劣化によって劣化した低品質(LQ)入力から高品質(HQ)イメージを復元することを目的としている。セマンティックとピクセルレベルの整合性を扱うためにConsisSRを導入する。
論文参考訳（メタデータ） (2024-10-17T17:41:52Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
拡散モデルは、例外的な品質、詳細な解像度、強い文脈認識を提供することによって、テキストと画像の合成に革命をもたらした。本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:21:29Z)
Towards Lightweight Super-Resolution with Dual Regression Learning [58.98801753555746]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。 SR問題は通常不適切な問題であり、既存の手法にはいくつかの制限がある。本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
論文参考訳（メタデータ） (2022-07-16T12:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。