論文の概要: SPIRE: Semantic Prompt-Driven Image Restoration
- arxiv url: http://arxiv.org/abs/2312.11595v2
- Date: Tue, 16 Jul 2024 08:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 23:40:44.561716
- Title: SPIRE: Semantic Prompt-Driven Image Restoration
- Title(参考訳): SPIRE: セマンティックプロンプト駆動画像復元
- Authors: Chenyang Qi, Zhengzhong Tu, Keren Ye, Mauricio Delbracio, Peyman Milanfar, Qifeng Chen, Hossein Talebi,
- Abstract要約: セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
- 参考スコア(独自算出の注目度): 66.26165625929747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven diffusion models have become increasingly popular for various image editing tasks, including inpainting, stylization, and object replacement. However, it still remains an open research problem to adopt this language-vision paradigm for more fine-level image processing tasks, such as denoising, super-resolution, deblurring, and compression artifact removal. In this paper, we develop SPIRE, a Semantic and restoration Prompt-driven Image Restoration framework that leverages natural language as a user-friendly interface to control the image restoration process. We consider the capacity of prompt information in two dimensions. First, we use content-related prompts to enhance the semantic alignment, effectively alleviating identity ambiguity in the restoration outcomes. Second, our approach is the first framework that supports fine-level instruction through language-based quantitative specification of the restoration strength, without the need for explicit task-specific design. In addition, we introduce a novel fusion mechanism that augments the existing ControlNet architecture by learning to rescale the generative prior, thereby achieving better restoration fidelity. Our extensive experiments demonstrate the superior restoration performance of SPIRE compared to the state of the arts, alongside offering the flexibility of text-based control over the restoration effects.
- Abstract(参考訳): テキスト駆動拡散モデルは、インペイント、スタイリゼーション、オブジェクト置換など、様々な画像編集タスクでますます人気が高まっている。
しかし、この言語ビジョンパラダイムを、より精細な画像処理タスク(例えば、デノイング、超解像、デブロアリング、圧縮アーティファクト削除など)に採用することは、依然としてオープンな研究課題である。
本稿では,自然言語をユーザフレンドリなインタフェースとして活用し,画像復元プロセスを制御する,セマンティック・プロンプト駆動型画像復元フレームワークであるSPIREを開発する。
本稿では,2次元における情報伝達能力について考察する。
まず、コンテンツ関連プロンプトを用いてセマンティックアライメントを強化し、修復結果におけるアイデンティティの曖昧さを効果的に軽減する。
第2に,本手法は,タスク固有の明示的な設計を必要とせず,言語に基づく復元強度の定量的な仕様化による細粒度指導を支援する最初のフレームワークである。
さらに,既存のControlNetアーキテクチャを拡張した新しい融合機構を導入し,生成前の再スケールを学習することで,復元精度の向上を実現した。
我々は,SPIREの回復性能を最先端技術と比較し,回復効果に対するテキストベース制御の柔軟性を実証した。
関連論文リスト
- MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild [57.06779516541574]
SUPIR (Scaling-UP Image Restoration) は、生成前処理とモデルスケールアップのパワーを利用する、画期的な画像復元手法である。
モデルトレーニングのための2000万の高解像度高画質画像からなるデータセットを収集し、それぞれに記述的テキストアノテーションを付加する。
論文 参考訳(メタデータ) (2024-01-24T17:58:07Z) - Unified-Width Adaptive Dynamic Network for All-In-One Image Restoration [50.81374327480445]
本稿では, 複雑な画像劣化を基本劣化の観点で表現できる, という新しい概念を提案する。
We propose the Unified-Width Adaptive Dynamic Network (U-WADN) which consist of two pivotal components: a Width Adaptive Backbone (WAB) and a Width Selector (WS)。
提案したU-WADNは、最大32.3%のFLOPを同時に削減し、約15.7%のリアルタイム加速を実現している。
論文 参考訳(メタデータ) (2024-01-24T04:25:12Z) - Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - Prompt-In-Prompt Learning for Universal Image Restoration [38.81186629753392]
汎用画像復元のためのPIP(Prompt-In-Prompt Learning)を提案する。
本稿では, 2つの新しいプロンプト, 高レベル劣化知識をエンコードする劣化認識プロンプト, 重要な低レベル情報を提供する基本的な復元プロンプトを提案する。
これにより、PIPはプラグアンドプレイモジュールとして機能し、ユニバーサルイメージ復元のための既存の復元モデルを強化する。
論文 参考訳(メタデータ) (2023-12-08T13:36:01Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - All-in-one Multi-degradation Image Restoration Network via Hierarchical
Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。
AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。
この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文 参考訳(メタデータ) (2023-08-06T04:51:41Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。