論文の概要: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
- arxiv url: http://arxiv.org/abs/2303.17569v2
- Date: Fri, 29 Sep 2023 13:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 19:06:43.032624
- Title: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
- Title(参考訳): 教師なしバックライト画像強調のための反復学習
- Authors: Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change
Loy
- Abstract要約: そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
- 参考スコア(独自算出の注目度): 86.90993077000789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel unsupervised backlit image enhancement method, abbreviated
as CLIP-LIT, by exploring the potential of Contrastive Language-Image
Pre-Training (CLIP) for pixel-level image enhancement. We show that the
open-world CLIP prior not only aids in distinguishing between backlit and
well-lit images, but also in perceiving heterogeneous regions with different
luminance, facilitating the optimization of the enhancement network. Unlike
high-level and image manipulation tasks, directly applying CLIP to enhancement
tasks is non-trivial, owing to the difficulty in finding accurate prompts. To
solve this issue, we devise a prompt learning framework that first learns an
initial prompt pair by constraining the text-image similarity between the
prompt (negative/positive sample) and the corresponding image (backlit
image/well-lit image) in the CLIP latent space. Then, we train the enhancement
network based on the text-image similarity between the enhanced result and the
initial prompt pair. To further improve the accuracy of the initial prompt
pair, we iteratively fine-tune the prompt learning framework to reduce the
distribution gaps between the backlit images, enhanced results, and well-lit
images via rank learning, boosting the enhancement performance. Our method
alternates between updating the prompt learning framework and enhancement
network until visually pleasing results are achieved. Extensive experiments
demonstrate that our method outperforms state-of-the-art methods in terms of
visual quality and generalization ability, without requiring any paired data.
- Abstract(参考訳): 画素レベルの画像強調のためのCLIP(Contrastive Language- Image Pre-Training)の可能性を探ることにより,CLIP-LIT(CLIP-LIT)と略される新しいバックライト画像強調法を提案する。
オープンワールドのCLIPは、バックライト画像と well-lit 画像の区別だけでなく、輝度の異なる異種領域の認識にも役立ち、拡張ネットワークの最適化が容易であることを示す。
高レベルのタスクや画像操作タスクとは異なり、CLIPを拡張タスクに直接適用するのは簡単ではない。
そこで本研究では,クリップ潜在空間におけるプロンプト(負/正のサンプル)と対応する画像(バックリット画像/ウェルリット画像)とのテキスト・イメージの類似性を制約することにより,最初に最初のプロンプトペアを学習するプロンプト学習フレームワークを考案する。
次に,拡張結果と初期プロンプトペアとのテキスト・画像類似性に基づいて拡張ネットワークを訓練する。
初期プロンプトペアの精度をさらに向上させるため,バックライト画像間の分布ギャップを低減し,結果の強化,ランク学習による高輝度画像とを反復的に微調整することで,エンハンスパフォーマンスの向上を図る。
本手法は,視覚的に満足できる結果が得られるまで,プロンプト学習フレームワークとエンハンスメントネットワークの更新を交互に行う。
広範な実験により,本手法は,データ対を必要とせず,視覚品質と一般化能力の観点から最先端の手法よりも優れていることが示された。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement [0.24578723416255752]
本稿では,教師なしバックライト画像強調作業におけるCLIP指導の新たな修正を提案する。
この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。
テキスト埋め込みの空間でプロンプトをチューニングする代わりに、品質を損なうことなく、埋め込みを直接調整できることが示される。
論文 参考訳(メタデータ) (2024-04-02T12:28:40Z) - CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文 参考訳(メタデータ) (2023-11-07T12:36:20Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。