論文の概要: Textual Prompt Guided Image Restoration
- arxiv url: http://arxiv.org/abs/2312.06162v1
- Date: Mon, 11 Dec 2023 06:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:40:36.355371
- Title: Textual Prompt Guided Image Restoration
- Title(参考訳): テキストによる迅速画像復元
- Authors: Qiuhai Yan and Aiwen Jiang and Kang Chen and Long Peng and Qiaosi Yi
and Chunjie Zhang
- Abstract要約: 近年ではブラインド画像復元が可能なオールインワンモデルが注目されている。
最近の研究は、データ分布から視覚的なプロンプトを学習し、劣化タイプを特定することに焦点を当てている。
本稿では,効果的なテキストプロンプトガイド画像復元モデルを提案する。
- 参考スコア(独自算出の注目度): 18.78902053873706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image restoration has always been a cutting-edge topic in the academic and
industrial fields of computer vision. Since degradation signals are often
random and diverse, "all-in-one" models that can do blind image restoration
have been concerned in recent years. Early works require training specialized
headers and tails to handle each degradation of concern, which are manually
cumbersome. Recent works focus on learning visual prompts from data
distribution to identify degradation type. However, the prompts employed in
most of models are non-text, lacking sufficient emphasis on the importance of
human-in-the-loop. In this paper, an effective textual prompt guided image
restoration model has been proposed. In this model, task-specific BERT is
fine-tuned to accurately understand user's instructions and generating textual
prompt guidance. Depth-wise multi-head transposed attentions and gated
convolution modules are designed to bridge the gap between textual prompts and
visual features. The proposed model has innovatively introduced semantic
prompts into low-level visual domain. It highlights the potential to provide a
natural, precise, and controllable way to perform image restoration tasks.
Extensive experiments have been done on public denoising, dehazing and
deraining datasets. The experiment results demonstrate that, compared with
popular state-of-the-art methods, the proposed model can obtain much more
superior performance, achieving accurate recognition and removal of degradation
without increasing model's complexity. Related source codes and data will be
publicly available on github site
https://github.com/MoTong-AI-studio/TextPromptIR.
- Abstract(参考訳): 画像復元は、コンピュータビジョンの学術および産業分野において、常に最先端のトピックである。
劣化信号はしばしばランダムで多様であるため、視覚的画像復元が可能なオールインワンモデルは近年懸念されている。
初期の作業では、各関心事の分解を処理するために、特別なヘッダとテールをトレーニングする必要があります。
最近の研究は、データ分布から視覚的なプロンプトを学習して劣化タイプを特定することに焦点を当てている。
しかし、ほとんどのモデルで使われるプロンプトは非テキストであり、人間のループの重要性に十分に重点を置いていない。
本稿では,効果的なテキストプロンプトガイド画像復元モデルを提案する。
このモデルでは、タスク固有のBERTを微調整し、ユーザの指示を正確に理解し、テキストプロンプトガイダンスを生成する。
奥行き方向マルチヘッド変換注意とゲート畳み込みモジュールは、テキストプロンプトと視覚的特徴の間のギャップを埋めるために設計されている。
提案モデルは,低レベルの視覚領域に意味的プロンプトを導入した。
画像復元タスクを実行するための、自然で正確で制御可能な方法を提供する可能性を強調している。
大規模な実験は、パブリックデノイング、デハジング、デラミニングデータセットで行われている。
実験結果から,従来の最先端手法と比較して,モデルの複雑さを増大させることなく,精度の高い認識と劣化除去を実現することができることがわかった。
関連するソースコードとデータはgithubのhttps://github.com/MoTong-AI-studio/TextPromptIRで公開されている。
関連論文リスト
- Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。
このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。
コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文 参考訳(メタデータ) (2024-08-13T08:08:45Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - InstructIR: High-Quality Image Restoration Following Human Instructions [61.1546287323136]
本稿では,人間の手書きによる画像復元モデルを導出する手法を提案する。
InstructIRという手法は、いくつかの修復作業において最先端の結果を得る。
論文 参考訳(メタデータ) (2024-01-29T18:53:33Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - PromptIR: Prompting for All-in-One Blind Image Restoration [64.02374293256001]
我々は、オールインワン画像復元のためのプロンプトIR(PromptIR)を提案する。
本手法では, 劣化特異的情報をエンコードするプロンプトを用いて, 復元ネットワークを動的に案内する。
PromptIRは、軽量なプロンプトがほとんどない汎用的で効率的なプラグインモジュールを提供する。
論文 参考訳(メタデータ) (2023-06-22T17:59:52Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。