論文の概要: UniProcessor: A Text-induced Unified Low-level Image Processor
- arxiv url: http://arxiv.org/abs/2407.20928v1
- Date: Tue, 30 Jul 2024 16:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:40:36.036600
- Title: UniProcessor: A Text-induced Unified Low-level Image Processor
- Title(参考訳): UniProcessor: テキストによる統一低レベルイメージプロセッサ
- Authors: Huiyu Duan, Xiongkuo Min, Sijing Wu, Wei Shen, Guangtao Zhai,
- Abstract要約: ディープ・ラーニング法は、単一タスク条件で様々な画像処理タスクに優れた性能を示す。
そこで本研究では,UniProcessorと呼ばれる低レベル視覚タスクのためのテキスト誘起統合イメージプロセッサを提案する。
私たちのUniProcessorは30の分解タイプをカバーしています。
- 参考スコア(独自算出の注目度): 57.68102257295907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image processing, including image restoration, image enhancement, etc., involves generating a high-quality clean image from a degraded input. Deep learning-based methods have shown superior performance for various image processing tasks in terms of single-task conditions. However, they require to train separate models for different degradations and levels, which limits the generalization abilities of these models and restricts their applications in real-world. In this paper, we propose a text-induced unified image processor for low-level vision tasks, termed UniProcessor, which can effectively process various degradation types and levels, and support multimodal control. Specifically, our UniProcessor encodes degradation-specific information with the subject prompt and process degradations with the manipulation prompt. These context control features are injected into the UniProcessor backbone via cross-attention to control the processing procedure. For automatic subject-prompt generation, we further build a vision-language model for general-purpose low-level degradation perception via instruction tuning techniques. Our UniProcessor covers 30 degradation types, and extensive experiments demonstrate that our UniProcessor can well process these degradations without additional training or tuning and outperforms other competing methods. Moreover, with the help of degradation-aware context control, our UniProcessor first shows the ability to individually handle a single distortion in an image with multiple degradations.
- Abstract(参考訳): 画像復元、画像強調等を含む画像処理は、劣化した入力から高品質なクリーンな画像を生成する。
深層学習に基づく手法は、単一タスク条件で様々な画像処理タスクに優れた性能を示す。
しかし、異なる分解とレベルのための別々のモデルを訓練する必要があるため、これらのモデルの一般化能力は制限され、実世界の応用は制限される。
本論文では,低レベル視覚タスクのためのテキスト誘起統合画像処理,UniProcessorを提案し,様々な劣化タイプやレベルを効果的に処理し,マルチモーダル制御をサポートする。
具体的には、UniProcessorは、対象のプロンプトで劣化特異的情報をエンコードし、操作プロンプトでプロセス劣化を処理します。
これらのコンテキスト制御機能は、処理手順を制御するためにクロスアテンションを介してUniProcessorのバックボーンに注入される。
提案手法により, 汎用低レベル劣化認識のための視覚言語モデルをさらに構築する。
我々のUniProcessorは、30の分解タイプをカバーしており、我々のUniProcessorは、追加のトレーニングやチューニングなしに、これらの分解を適切に処理し、他の競合するメソッドより優れています。
さらに、劣化認識コンテキスト制御の助けを借りて、我々のUniProcessorはまず、複数の劣化を伴う画像の1つの歪みを個別に扱う能力を示す。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - MRIR: Integrating Multimodal Insights for Diffusion-based Realistic Image Restoration [17.47612023350466]
マルチモーダルなインサイトを持つ拡散型復元法であるMRIRを提案する。
テキストレベルでは、訓練済みのマルチモーダル大言語モデルのパワーを利用して、低品質の画像から意味のある意味情報を推測する。
視覚レベルでは、主にピクセルレベルの制御に焦点を合わせ、Pixelレベルのプロセッサと制御ネットを用いて空間構造を制御する。
論文 参考訳(メタデータ) (2024-07-04T04:55:14Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - Gated Multi-Resolution Transfer Network for Burst Restoration and
Enhancement [75.25451566988565]
低画質の原画像のバーストから空間的精度の高い高画質画像を再構成する新しいGated Multi-Resolution Transfer Network (GMTNet)を提案する。
5つのデータセットに関する詳細な実験分析は、我々のアプローチを検証し、バースト超解像、バーストデノイング、低照度バーストエンハンスメントのための最先端技術を設定する。
論文 参考訳(メタデータ) (2023-04-13T17:54:00Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - QC-StyleGAN -- Quality Controllable Image Generation and Manipulation [5.350301868605201]
本稿では,制御可能な画質で画像を生成する新しいGAN構造を提案する。
ネットワークは、様々な画像劣化を合成し、品質制御コードを介してシャープな画像を復元することができる。
また、ノイズ、ぼかし、圧縮アーティファクト、それらの混合物など、さまざまな劣化を処理できる画像復元ソリューションを無償で提供する。
論文 参考訳(メタデータ) (2022-12-02T05:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。