論文の概要: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
- arxiv url: http://arxiv.org/abs/2303.17569v2
- Date: Fri, 29 Sep 2023 13:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 19:06:43.032624
- Title: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
- Title(参考訳): 教師なしバックライト画像強調のための反復学習
- Authors: Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change
Loy
- Abstract要約: そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
- 参考スコア(独自算出の注目度): 86.90993077000789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel unsupervised backlit image enhancement method, abbreviated
as CLIP-LIT, by exploring the potential of Contrastive Language-Image
Pre-Training (CLIP) for pixel-level image enhancement. We show that the
open-world CLIP prior not only aids in distinguishing between backlit and
well-lit images, but also in perceiving heterogeneous regions with different
luminance, facilitating the optimization of the enhancement network. Unlike
high-level and image manipulation tasks, directly applying CLIP to enhancement
tasks is non-trivial, owing to the difficulty in finding accurate prompts. To
solve this issue, we devise a prompt learning framework that first learns an
initial prompt pair by constraining the text-image similarity between the
prompt (negative/positive sample) and the corresponding image (backlit
image/well-lit image) in the CLIP latent space. Then, we train the enhancement
network based on the text-image similarity between the enhanced result and the
initial prompt pair. To further improve the accuracy of the initial prompt
pair, we iteratively fine-tune the prompt learning framework to reduce the
distribution gaps between the backlit images, enhanced results, and well-lit
images via rank learning, boosting the enhancement performance. Our method
alternates between updating the prompt learning framework and enhancement
network until visually pleasing results are achieved. Extensive experiments
demonstrate that our method outperforms state-of-the-art methods in terms of
visual quality and generalization ability, without requiring any paired data.
- Abstract(参考訳): 画素レベルの画像強調のためのCLIP(Contrastive Language- Image Pre-Training)の可能性を探ることにより,CLIP-LIT(CLIP-LIT)と略される新しいバックライト画像強調法を提案する。
オープンワールドのCLIPは、バックライト画像と well-lit 画像の区別だけでなく、輝度の異なる異種領域の認識にも役立ち、拡張ネットワークの最適化が容易であることを示す。
高レベルのタスクや画像操作タスクとは異なり、CLIPを拡張タスクに直接適用するのは簡単ではない。
そこで本研究では,クリップ潜在空間におけるプロンプト(負/正のサンプル)と対応する画像(バックリット画像/ウェルリット画像)とのテキスト・イメージの類似性を制約することにより,最初に最初のプロンプトペアを学習するプロンプト学習フレームワークを考案する。
次に,拡張結果と初期プロンプトペアとのテキスト・画像類似性に基づいて拡張ネットワークを訓練する。
初期プロンプトペアの精度をさらに向上させるため,バックライト画像間の分布ギャップを低減し,結果の強化,ランク学習による高輝度画像とを反復的に微調整することで,エンハンスパフォーマンスの向上を図る。
本手法は,視覚的に満足できる結果が得られるまで,プロンプト学習フレームワークとエンハンスメントネットワークの更新を交互に行う。
広範な実験により,本手法は,データ対を必要とせず,視覚品質と一般化能力の観点から最先端の手法よりも優れていることが示された。
関連論文リスト
- Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [22.33658954569737]
我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。
広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。
提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
論文 参考訳(メタデータ) (2024-12-16T02:03:45Z) - Leveraging Content and Context Cues for Low-Light Image Enhancement [25.97198463881292]
低照度条件はマシン認知に悪影響を及ぼし、現実のコンピュータビジョンシステムの性能を制限する。
本稿では、CLIPモデルを利用して、画像の先行と意味的ガイダンスの取得により、既存のゼロ参照低照度化を改善することを提案する。
提案手法は,画像のコントラストと色調の改善,背景背景の識別の改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-10T17:32:09Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement [0.24578723416255752]
本稿では,教師なしバックライト画像強調作業におけるCLIP指導の新たな修正を提案する。
この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。
テキスト埋め込みの空間でプロンプトをチューニングする代わりに、品質を損なうことなく、埋め込みを直接調整できることが示される。
論文 参考訳(メタデータ) (2024-04-02T12:28:40Z) - CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文 参考訳(メタデータ) (2023-11-07T12:36:20Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。