論文の概要: CLIP Guided Image-perceptive Prompt Learning for Image Enhancement
- arxiv url: http://arxiv.org/abs/2311.03943v1
- Date: Tue, 7 Nov 2023 12:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:33:44.677638
- Title: CLIP Guided Image-perceptive Prompt Learning for Image Enhancement
- Title(参考訳): 画像強調のためのCLIPガイド画像知覚プロンプト学習
- Authors: Zinuo Li, Qiuhong Ke, Weiwen Chen
- Abstract要約: コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
- 参考スコア(独自算出の注目度): 15.40368082025006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image enhancement is a significant research area in the fields of computer
vision and image processing. In recent years, many learning-based methods for
image enhancement have been developed, where the Look-up-table (LUT) has proven
to be an effective tool. In this paper, we delve into the potential of
Contrastive Language-Image Pre-Training (CLIP) Guided Prompt Learning,
proposing a simple structure called CLIP-LUT for image enhancement. We found
that the prior knowledge of CLIP can effectively discern the quality of
degraded images, which can provide reliable guidance. To be specific, We
initially learn image-perceptive prompts to distinguish between original and
target images using CLIP model, in the meanwhile, we introduce a very simple
network by incorporating a simple baseline to predict the weights of three
different LUT as enhancement network. The obtained prompts are used to steer
the enhancement network like a loss function and improve the performance of
model. We demonstrate that by simply combining a straightforward method with
CLIP, we can obtain satisfactory results.
- Abstract(参考訳): 画像強調はコンピュータビジョンと画像処理の分野で重要な研究領域である。
近年,ルックアップテーブル(lut)が有効なツールであることが証明され,画像強調のための学習ベースの手法が数多く開発されている。
本稿では,CLIP(Contrastive Language- Image Pre-Training)ガイドプロンプト学習の可能性を探り,画像強調のためのCLIP-LUTという単純な構造を提案する。
CLIPの事前知識は、劣化した画像の品質を効果的に識別し、信頼性の高いガイダンスを提供する。
具体的には、まずCLIPモデルを用いて、オリジナル画像とターゲット画像を区別するイメージ知覚プロンプトを学習する一方、単純なベースラインを組み込んで、3種類のLUTの重みを拡張ネットワークとして予測することで、非常に単純なネットワークを導入する。
得られたプロンプトを用いて、損失関数のようなエンハンスメントネットワークを操り、モデルの性能を向上させる。
簡単な方法とCLIPを組み合わせることで,満足な結果が得られることを示す。
関連論文リスト
- Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Prototypical Contrastive Learning-based CLIP Fine-tuning for Object
Re-identification [13.090873217313732]
本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。
私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。
提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
論文 参考訳(メタデータ) (2023-10-26T08:12:53Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。