論文の概要: DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2503.23580v1
- Date: Sun, 30 Mar 2025 20:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.192502
- Title: DiT4SR: Taming Diffusion Transformer for Real-World Image Super-Resolution
- Title(参考訳): DiT4SR: リアルタイム超解像のための拡散変換器
- Authors: Zheng-Peng Duan, Jiawei Zhang, Xin Jin, Ziheng Zhang, Zheng Xiong, Dongqing Zou, Jimmy Ren, Chun-Le Guo, Chongyi Li,
- Abstract要約: DiT4SRは、Real-ISRの大規模DiTモデルを模倣する先駆的な研究の1つである。
ControlNetのような低解像度(LR)画像から抽出した埋め込みを直接注入する代わりに、LR埋め込みをDiTの本来の注意機構に統合する。
LRガイダンスは、ローカル情報をキャプチャするDiTの制限された能力を補う、ストリーム間の畳み込み層を介して生成された潜水器に注入される。
- 参考スコア(独自算出の注目度): 42.26299332658843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale pre-trained diffusion models are becoming increasingly popular in solving the Real-World Image Super-Resolution (Real-ISR) problem because of their rich generative priors. The recent development of diffusion transformer (DiT) has witnessed overwhelming performance over the traditional UNet-based architecture in image generation, which also raises the question: Can we adopt the advanced DiT-based diffusion model for Real-ISR? To this end, we propose our DiT4SR, one of the pioneering works to tame the large-scale DiT model for Real-ISR. Instead of directly injecting embeddings extracted from low-resolution (LR) images like ControlNet, we integrate the LR embeddings into the original attention mechanism of DiT, allowing for the bidirectional flow of information between the LR latent and the generated latent. The sufficient interaction of these two streams allows the LR stream to evolve with the diffusion process, producing progressively refined guidance that better aligns with the generated latent at each diffusion step. Additionally, the LR guidance is injected into the generated latent via a cross-stream convolution layer, compensating for DiT's limited ability to capture local information. These simple but effective designs endow the DiT model with superior performance in Real-ISR, which is demonstrated by extensive experiments. Project Page: https://adam-duan.github.io/projects/dit4sr/.
- Abstract(参考訳): 大規模な事前学習拡散モデルが, より豊かな生成先行性のため, 実世界画像超解法(Real-World Image Super-Resolution, Real-ISR)問題を解くことで, ますます人気が高まっている。
拡散変換器(DiT)の最近の開発は、画像生成における従来のUNetアーキテクチャよりも圧倒的な性能を示している。
この目的のために我々は,Real-ISRのための大規模DiTモデルの先駆的な研究であるDiT4SRを提案する。
ControlNetのような低解像度(LR)画像から抽出した埋め込みを直接注入する代わりに、Ditの本来の注意機構にLR埋め込みを統合することで、LR潜時と生成された潜時との間の双方向な情報の流れを可能にする。
これら2つのストリームの十分な相互作用により、LRストリームは拡散過程と共に進化し、各拡散ステップで生成された潜水剤とよりよく整合する段階的に洗練されたガイダンスを生成する。
さらに、LRガイダンスは、ローカル情報をキャプチャするDiTの制限された能力を補うクロスストリーム畳み込み層を介して生成された潜水器に注入される。
これらの単純だが効果的な設計により、Real-ISRにおいて優れた性能を持つDiTモデルが実現され、広範囲な実験によって実証された。
Project Page: https://adam-duan.github.io/projects/dit4sr/
関連論文リスト
- Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。
提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。
実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文 参考訳(メタデータ) (2025-03-25T09:56:21Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [25.994093587158808]
事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。
拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。
実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:01:08Z) - ClearSR: Latent Low-Resolution Image Embeddings Help Diffusion-Based Real-World Super Resolution Models See Clearer [68.72454974431749]
本稿では、拡散に基づく実世界の超解像(Real-ISR)に対する潜在低分解能画像(LR)埋め込みの利点を活かす新しい手法であるClearSRを提案する。
提案モデルでは,複数のテストセット上で複数の測定値にまたがる性能が向上し,既存の手法よりもLR画像でより一貫したSR結果が得られる。
論文 参考訳(メタデータ) (2024-10-18T08:35:57Z) - Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。