論文の概要: CLIP Guided Image-perceptive Prompt Learning for Image Enhancement
- arxiv url: http://arxiv.org/abs/2311.03943v2
- Date: Wed, 22 Nov 2023 07:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:16:43.300553
- Title: CLIP Guided Image-perceptive Prompt Learning for Image Enhancement
- Title(参考訳): 画像強調のためのCLIPガイド画像知覚プロンプト学習
- Authors: Weiwen Chen, Qiuhong Ke, Zinuo Li
- Abstract要約: コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
- 参考スコア(独自算出の注目度): 15.40368082025006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image enhancement is a significant research area in the fields of computer
vision and image processing. In recent years, many learning-based methods for
image enhancement have been developed, where the Look-up-table (LUT) has proven
to be an effective tool. In this paper, we delve into the potential of
Contrastive Language-Image Pre-Training (CLIP) Guided Prompt Learning,
proposing a simple structure called CLIP-LUT for image enhancement. We found
that the prior knowledge of CLIP can effectively discern the quality of
degraded images, which can provide reliable guidance. To be specific, We
initially learn image-perceptive prompts to distinguish between original and
target images using CLIP model, in the meanwhile, we introduce a very simple
network by incorporating a simple baseline to predict the weights of three
different LUT as enhancement network. The obtained prompts are used to steer
the enhancement network like a loss function and improve the performance of
model. We demonstrate that by simply combining a straightforward method with
CLIP, we can obtain satisfactory results.
- Abstract(参考訳): 画像強調はコンピュータビジョンと画像処理の分野で重要な研究領域である。
近年,ルックアップテーブル(lut)が有効なツールであることが証明され,画像強調のための学習ベースの手法が数多く開発されている。
本稿では,CLIP(Contrastive Language- Image Pre-Training)ガイドプロンプト学習の可能性を探り,画像強調のためのCLIP-LUTという単純な構造を提案する。
CLIPの事前知識は、劣化した画像の品質を効果的に識別し、信頼性の高いガイダンスを提供する。
具体的には、まずCLIPモデルを用いて、オリジナル画像とターゲット画像を区別するイメージ知覚プロンプトを学習する一方、単純なベースラインを組み込んで、3種類のLUTの重みを拡張ネットワークとして予測することで、非常に単純なネットワークを導入する。
得られたプロンプトを用いて、損失関数のようなエンハンスメントネットワークを操り、モデルの性能を向上させる。
簡単な方法とCLIPを組み合わせることで,満足な結果が得られることを示す。
関連論文リスト
- Learning Visual Composition through Improved Semantic Guidance [19.24813992815684]
ラベル付けされたデータを大幅に改善することで、標準的なコントラスト学習手法の性能を大幅に改善できることを示す。
本結果は,DOCCIから得られた比較的新しいキャプションベンチマークで紹介する。
拡張されたデータでトレーニングされた標準的なCLIPモデルは、画像検索タスクにおいて印象的なパフォーマンスを示すかもしれない。
論文 参考訳(メタデータ) (2024-12-19T20:58:26Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。