論文の概要: Controlling Vision-Language Models for Universal Image Restoration
- arxiv url: http://arxiv.org/abs/2310.01018v1
- Date: Mon, 2 Oct 2023 09:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:42:07.938080
- Title: Controlling Vision-Language Models for Universal Image Restoration
- Title(参考訳): ユニバーサル画像復元のためのビジョン言語モデル制御
- Authors: Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund, Thomas
B. Sch\"on
- Abstract要約: 我々は、事前学習された視覚言語モデルを低レベル視覚タスクに転送するための劣化認識型視覚言語モデル(DA-CLIP)を提案する。
本手法は, 劣化特異的および統一画像復元タスクにおける最先端性能を向上する。
- 参考スコア(独自算出の注目度): 6.239038964461397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models such as CLIP have shown great impact on diverse
downstream tasks for zero-shot or label-free predictions. However, when it
comes to low-level vision such as image restoration their performance
deteriorates dramatically due to corrupted inputs. In this paper, we present a
degradation-aware vision-language model (DA-CLIP) to better transfer pretrained
vision-language models to low-level vision tasks as a universal framework for
image restoration. More specifically, DA-CLIP trains an additional controller
that adapts the fixed CLIP image encoder to predict high-quality feature
embeddings. By integrating the embedding into an image restoration network via
cross-attention, we are able to pilot the model to learn a high-fidelity image
reconstruction. The controller itself will also output a degradation feature
that matches the real corruptions of the input, yielding a natural classifier
for different degradation types. In addition, we construct a mixed degradation
dataset with synthetic captions for DA-CLIP training. Our approach advances
state-of-the-art performance on both degradation-specific and unified image
restoration tasks, showing a promising direction of prompting image restoration
with large-scale pretrained vision-language models. Our code is available at
https://github.com/Algolzw/daclip-uir.
- Abstract(参考訳): CLIPのようなビジョン言語モデルは、ゼロショットやラベルなしの予測のために、さまざまな下流タスクに大きな影響を与えている。
しかし、画像復元などの低レベルのビジョンでは、入力の破損により性能が劇的に低下する。
本稿では,画像復元のための普遍的なフレームワークとして,事前学習された視覚言語モデルを低レベル視覚タスクに転送するための分解認識視覚言語モデル(da-clip)を提案する。
具体的には、DA-CLIPは、修正されたCLIPイメージエンコーダに適応して高品質な機能埋め込みを予測する、追加のコントローラをトレーニングする。
クロスアテンションによる画像復元ネットワークへの埋め込みを統合することで,高忠実度画像再構成を学習するモデルをパイロット化することができる。
コントローラ自体も、入力の実際の破損と一致する分解機能を出力し、異なる分解タイプに対して自然な分類子を生成する。
さらに,DA-CLIP訓練のための合成キャプションを用いた混合劣化データセットを構築した。
提案手法は, 画像復元作業において, 大規模な事前学習型視覚言語モデルを用いて, 画像復元を促進させる上で有望な方向性を示す。
私たちのコードはhttps://github.com/algolzw/daclip-uirで利用可能です。
関連論文リスト
- Review Learning: Advancing All-in-One Ultra-High-Definition Image Restoration Training Method [7.487270862599671]
本稿では,bfReview Learning という一般画像復元モデルの学習パラダイムを提案する。
このアプローチは、いくつかの劣化したデータセット上のイメージ復元モデルのシーケンシャルなトレーニングと、レビューメカニズムの組み合わせから始まります。
コンシューマグレードのGPU上で4K解像度で画像の劣化を効率的に推論できる軽量な全目的画像復元ネットワークを設計する。
論文 参考訳(メタデータ) (2024-08-13T08:08:45Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - InstructIR: High-Quality Image Restoration Following Human Instructions [61.1546287323136]
本稿では,人間の手書きによる画像復元モデルを導出する手法を提案する。
InstructIRという手法は、いくつかの修復作業において最先端の結果を得る。
論文 参考訳(メタデータ) (2024-01-29T18:53:33Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - PromptIR: Prompting for All-in-One Blind Image Restoration [64.02374293256001]
我々は、オールインワン画像復元のためのプロンプトIR(PromptIR)を提案する。
本手法では, 劣化特異的情報をエンコードするプロンプトを用いて, 復元ネットワークを動的に案内する。
PromptIRは、軽量なプロンプトがほとんどない汎用的で効率的なプラグインモジュールを提供する。
論文 参考訳(メタデータ) (2023-06-22T17:59:52Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。