論文の概要: Referring Flexible Image Restoration
- arxiv url: http://arxiv.org/abs/2404.10342v1
- Date: Tue, 16 Apr 2024 07:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:43:04.054913
- Title: Referring Flexible Image Restoration
- Title(参考訳): フレキシブルな画像復元
- Authors: Runwei Guan, Rongsheng Hu, Zhuhao Zhou, Tianlang Xue, Ka Lok Man, Jeremy Smith, Eng Gee Lim, Weiping Ding, Yutao Yue,
- Abstract要約: フレキシブル・イメージ・リカバリ(RFIR)を参考に
そこで我々はまず,分解した画像を含む153,423個のサンプルからなるRFIRという大規模合成データセットを構築した。
劣化画像の劣化型を同時に認識し,テキストプロンプトによる特定の劣化を除去する,TransRFIRと呼ばれる新しいトランスフォーマーベースのマルチタスクモデルを提案する。
- 参考スコア(独自算出の注目度): 9.664435854616633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reality, images often exhibit multiple degradations, such as rain and fog at night (triple degradations). However, in many cases, individuals may not want to remove all degradations, for instance, a blurry lens revealing a beautiful snowy landscape (double degradations). In such scenarios, people may only desire to deblur. These situations and requirements shed light on a new challenge in image restoration, where a model must perceive and remove specific degradation types specified by human commands in images with multiple degradations. We term this task Referring Flexible Image Restoration (RFIR). To address this, we first construct a large-scale synthetic dataset called RFIR, comprising 153,423 samples with the degraded image, text prompt for specific degradation removal and restored image. RFIR consists of five basic degradation types: blur, rain, haze, low light and snow while six main sub-categories are included for varying degrees of degradation removal. To tackle the challenge, we propose a novel transformer-based multi-task model named TransRFIR, which simultaneously perceives degradation types in the degraded image and removes specific degradation upon text prompt. TransRFIR is based on two devised attention modules, Multi-Head Agent Self-Attention (MHASA) and Multi-Head Agent Cross Attention (MHACA), where MHASA and MHACA introduce the agent token and reach the linear complexity, achieving lower computation cost than vanilla self-attention and cross-attention and obtaining competitive performances. Our TransRFIR achieves state-of-the-art performances compared with other counterparts and is proven as an effective architecture for image restoration. We release our project at https://github.com/GuanRunwei/FIR-CP.
- Abstract(参考訳): 実際には、画像は夜間の雨や霧(三重劣化)など、複数の劣化を示すことが多い。
しかし、多くの場合、個人はすべての劣化を取り除きたくないかもしれない。例えば、美しい雪景色(二重の劣化)を示すぼやけたレンズなどだ。
このようなシナリオでは、人々はデブラーを欲しがるだけかもしれません。
これらの状況と要件は、画像復元において新たな課題を浮き彫りにした。モデルでは、複数の劣化を伴う画像において、人間のコマンドによって指定された特定の劣化タイプを知覚し、取り除かなければならない。
本稿では、このタスクをフレキシブルイメージ復元(RFIR)と呼ぶ。
まず, 劣化画像を含む153,423個のサンプルと, 特定の劣化除去のためのテキストプロンプトと復元画像からなる, RFIRと呼ばれる大規模合成データセットを構築した。
RFIRは5つの基本的な分解タイプから成っている: ぼやけ, 雨, 迷路, 低照度, 雪。
この課題に対処するため,TransRFIRと呼ばれるトランスフォーマーベースのマルチタスクモデルを提案し,同時に劣化画像の劣化タイプを認識し,テキストプロンプトによる特定の劣化を除去する。
TransRFIRは、MHASA(Multi-Head Agent Self-Attention)とMHACA(Multi-Head Agent Cross Attention)という2つの工夫された注目モジュールに基づいている。
我々のTransRFIRは,他の技術と比較して最先端の性能を達成し,画像復元に有効なアーキテクチャとして証明されている。
私たちは、https://github.com/GuanRunwei/FIR-CPでプロジェクトをリリースします。
関連論文リスト
- Mixed Degradation Image Restoration via Local Dynamic Optimization and Conditional Embedding [67.57487747508179]
マルチインワン画像復元 (IR) は, 一つのモデルで全ての種類の劣化画像復元を処理し, 大幅な進歩を遂げている。
本稿では,単一と混合の分解で画像を効果的に復元できる新しいマルチインワンIRモデルを提案する。
論文 参考訳(メタデータ) (2024-11-25T09:26:34Z) - Chain-of-Restoration: Multi-Task Image Restoration Models are Zero-Shot Step-by-Step Universal Image Restorers [53.298698981438]
これは、モデルを一連の劣化ベースでトレーニングし、これらのベースがゼロショットで構成できる可能性のある劣化を除去する、新しいタスク設定である。
段階的に問題に対処するLLMに着想を得たCoR(Chain-of-Thought)を提案する。
CoRは、未知の複合劣化を段階的に除去するようモデルに指示する。
論文 参考訳(メタデータ) (2024-10-11T10:21:42Z) - OneRestore: A Universal Restoration Framework for Composite Degradation [33.556183375565034]
現実のシナリオでは、画像障害はしばしば複合的な劣化として現れ、低光、迷路、雨、雪といった要素の複雑な相互作用を示す。
本研究では, 複雑な複合劣化シナリオを正確に表現するために, 4つの物理劣化パラダイムを統合した多目的イメージングモデルを提案する。
OneRestoreは、適応的で制御可能なシーン復元のために設計された新しいトランスフォーマーベースのフレームワークである。
論文 参考訳(メタデータ) (2024-07-05T16:27:00Z) - Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - Efficient Test-Time Adaptation for Super-Resolution with Second-Order
Degradation and Reconstruction [62.955327005837475]
画像超解像(SR)は,低分解能(LR)から高分解能(HR)へのマッピングを,一対のHR-LRトレーニング画像を用いて学習することを目的としている。
SRTTAと呼ばれるSRの効率的なテスト時間適応フレームワークを提案し、SRモデルを異なる/未知の劣化型でテストドメインに迅速に適応させることができる。
論文 参考訳(メタデータ) (2023-10-29T13:58:57Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - All-in-one Multi-degradation Image Restoration Network via Hierarchical
Degradation Representation [47.00239809958627]
我々は新しいオールインワン・マルチデグレーション画像復元ネットワーク(AMIRNet)を提案する。
AMIRNetは、クラスタリングによって木構造を段階的に構築することで、未知の劣化画像の劣化表現を学習する。
この木構造表現は、様々な歪みの一貫性と不一致を明示的に反映しており、画像復元の具体的な手がかりとなっている。
論文 参考訳(メタデータ) (2023-08-06T04:51:41Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - Invertible Rescaling Network and Its Extensions [118.72015270085535]
本研究では,新たな視点から双方向の劣化と復元をモデル化する,新しい可逆的枠組みを提案する。
我々は、有効な劣化画像を生成し、失われたコンテンツの分布を変換する可逆モデルを開発する。
そして、ランダムに描画された潜在変数とともに、生成された劣化画像に逆変換を適用することにより、復元可能とする。
論文 参考訳(メタデータ) (2022-10-09T06:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。