論文の概要: Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration
- arxiv url: http://arxiv.org/abs/2412.00878v2
- Date: Fri, 06 Dec 2024 17:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:53:32.878139
- Title: Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration
- Title(参考訳): ピクセルを超えて: テキストは、現実世界のイメージ復元における一般化を促進する
- Authors: Haoze Sun, Wenbo Li, Jiayue Liu, Kaiwen Zhou, Yongqiang Chen, Yong Guo, Yanwei Li, Renjing Pei, Long Peng, Yujiu Yang,
- Abstract要約: 拡散に基づく復元モデルの生成能力を再活性化するために,テキストを補助的不変表現として用いることを提案する。
Res-Captionerは、画像の内容や劣化レベルに合わせて拡張されたテキスト記述を生成するモジュールである。
様々な現実世界のシナリオを捉えるために設計された新しいベンチマークであるRealIRを提示する。
- 参考スコア(独自算出の注目度): 47.942948541067544
- License:
- Abstract: Generalization has long been a central challenge in real-world image restoration. While recent diffusion-based restoration methods, which leverage generative priors from text-to-image models, have made progress in recovering more realistic details, they still encounter "generative capability deactivation" when applied to out-of-distribution real-world data. To address this, we propose using text as an auxiliary invariant representation to reactivate the generative capabilities of these models. We begin by identifying two key properties of text input: richness and relevance, and examine their respective influence on model performance. Building on these insights, we introduce Res-Captioner, a module that generates enhanced textual descriptions tailored to image content and degradation levels, effectively mitigating response failures. Additionally, we present RealIR, a new benchmark designed to capture diverse real-world scenarios. Extensive experiments demonstrate that Res-Captioner significantly enhances the generalization abilities of diffusion-based restoration models, while remaining fully plug-and-play.
- Abstract(参考訳): 一般化は、長い間、現実世界のイメージ復元において中心的な課題であった。
テキスト・ツー・イメージ・モデルから生成した先行情報を利用する最近の拡散型復元法は、より現実的な詳細を回復する進歩を遂げてきたが、分配外実世界のデータに適用すると「生成能力の劣化」に遭遇する。
そこで本研究では,テキストを補助不変表現として用いて,これらのモデルの生成能力を再活性化する手法を提案する。
まず、テキスト入力の2つの重要な特性、豊かさと妥当性を特定し、それらがモデル性能に与える影響について検討する。
Res-Captionerは、画像の内容や劣化レベルに合わせてテキスト記述を改良し、応答障害を効果的に軽減するモジュールである。
さらに、さまざまな現実シナリオをキャプチャする新しいベンチマークであるRealIRを提示する。
大規模な実験により、Res-Captionerは完全なプラグアンドプレイを維持しながら拡散ベースの復元モデルの一般化能力を著しく向上させることが示された。
関連論文リスト
- Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Towards Realistic Data Generation for Real-World Super-Resolution [58.88039242455039]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z) - DeeDSR: Towards Real-World Image Super-Resolution via Degradation-Aware Stable Diffusion [27.52552274944687]
低解像度画像のコンテンツや劣化を認識する拡散モデルの能力を高める新しい2段階の劣化認識フレームワークを提案する。
最初の段階では、教師なしのコントラスト学習を用いて画像劣化の表現を得る。
第2段階では、分解対応モジュールを単純化されたControlNetに統合し、様々な劣化への柔軟な適応を可能にします。
論文 参考訳(メタデータ) (2024-03-31T12:07:04Z) - Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。
モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文 参考訳(メタデータ) (2024-01-24T17:58:07Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - RestoreFormer++: Towards Real-World Blind Face Restoration from
Undegraded Key-Value Pairs [63.991802204929485]
ブラインド顔復元は、未知の劣化のあるものから高品質な顔画像の復元を目的としている。
現在のアルゴリズムは、主に、高品質な詳細を補完し、驚くべき進歩を達成するために、事前を導入する。
RestoreFormer++を提案する。これは、コンテキスト情報と事前との相互作用をモデル化するための、完全な空間的アテンション機構を導入します。
RestoreFormer++は、合成と実世界の両方のデータセットで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-08-14T16:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。