論文の概要: Dual Prompting Image Restoration with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2504.17825v1
- Date: Thu, 24 Apr 2025 02:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.524134
- Title: Dual Prompting Image Restoration with Diffusion Transformers
- Title(参考訳): 拡散変換器を用いたデュアルプロンプト画像復元
- Authors: Dehong Kong, Fan Li, Zhixin Wang, Jiaqi Xu, Renjing Pei, Wenbo Li, WenQi Ren,
- Abstract要約: DPIR(Dual Prompting Image Restoration)は,低画質画像の条件情報を多視点から効果的に抽出する画像復元手法である。
抽出したグローバルローカルな視覚的プロンプトは、追加条件制御として、テキスト的プロンプトと共に二重プロンプトを形成することで、復元の質を大幅に向上させる。
- 参考スコア(独自算出の注目度): 45.159373436771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent state-of-the-art image restoration methods mostly adopt latent diffusion models with U-Net backbones, yet still facing challenges in achieving high-quality restoration due to their limited capabilities. Diffusion transformers (DiTs), like SD3, are emerging as a promising alternative because of their better quality with scalability. In this paper, we introduce DPIR (Dual Prompting Image Restoration), a novel image restoration method that effectivly extracts conditional information of low-quality images from multiple perspectives. Specifically, DPIR consits of two branches: a low-quality image conditioning branch and a dual prompting control branch. The first branch utilizes a lightweight module to incorporate image priors into the DiT with high efficiency. More importantly, we believe that in image restoration, textual description alone cannot fully capture its rich visual characteristics. Therefore, a dual prompting module is designed to provide DiT with additional visual cues, capturing both global context and local appearance. The extracted global-local visual prompts as extra conditional control, alongside textual prompts to form dual prompts, greatly enhance the quality of the restoration. Extensive experimental results demonstrate that DPIR delivers superior image restoration performance.
- Abstract(参考訳): 最近の最先端の画像復元手法は、主にU-Netバックボーンを用いた潜時拡散モデルを採用するが、その限られた能力のために高品質な復元を実現する上ではまだ課題に直面している。
SD3のような拡散トランスフォーマー(DiT)は、スケーラビリティの優れた品質のために、将来性のある代替品として現れている。
本稿では,低画質画像の条件情報を多視点から効果的に抽出する新しい画像復元手法であるDPIR(Dual Prompting Image Restoration)を紹介する。
具体的には、DPIRは、低品質のイメージコンディショニングブランチとデュアルプロンプトコントロールブランチの2つのブランチからなる。
第1のブランチは、軽量モジュールを使用して、高効率で画像プリエントをDiTに組み込む。
さらに重要なことは、画像復元において、テキスト記述だけでは、そのリッチな視覚的特徴を完全に捉えることはできない、と我々は信じている。
したがって、デュアルプロンプトモジュールはDiTに追加の視覚的手がかりを提供し、グローバルなコンテキストとローカルな外観の両方をキャプチャするように設計されている。
抽出したグローバルローカルな視覚的プロンプトは、追加条件制御として、テキスト的プロンプトと共に二重プロンプトを形成することで、復元の質を大幅に向上させる。
DPIRは画像復元性能に優れることを示した。
関連論文リスト
- UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。
本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。
これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文 参考訳(メタデータ) (2023-12-08T13:36:01Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。