Fugu-MT 論文翻訳(概要): Iterative Prompt Learning for Unsupervised Backlit Image Enhancement

論文の概要: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement

arxiv url: http://arxiv.org/abs/2303.17569v2
Date: Fri, 29 Sep 2023 13:40:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 19:06:43.032624
Title: Iterative Prompt Learning for Unsupervised Backlit Image Enhancement
Title（参考訳）: 教師なしバックライト画像強調のための反復学習
Authors: Zhexin Liang, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Chen Change Loy
Abstract要約: そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
参考スコア（独自算出の注目度）: 86.90993077000789
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel unsupervised backlit image enhancement method, abbreviated as CLIP-LIT, by exploring the potential of Contrastive Language-Image Pre-Training (CLIP) for pixel-level image enhancement. We show that the open-world CLIP prior not only aids in distinguishing between backlit and well-lit images, but also in perceiving heterogeneous regions with different luminance, facilitating the optimization of the enhancement network. Unlike high-level and image manipulation tasks, directly applying CLIP to enhancement tasks is non-trivial, owing to the difficulty in finding accurate prompts. To solve this issue, we devise a prompt learning framework that first learns an initial prompt pair by constraining the text-image similarity between the prompt (negative/positive sample) and the corresponding image (backlit image/well-lit image) in the CLIP latent space. Then, we train the enhancement network based on the text-image similarity between the enhanced result and the initial prompt pair. To further improve the accuracy of the initial prompt pair, we iteratively fine-tune the prompt learning framework to reduce the distribution gaps between the backlit images, enhanced results, and well-lit images via rank learning, boosting the enhancement performance. Our method alternates between updating the prompt learning framework and enhancement network until visually pleasing results are achieved. Extensive experiments demonstrate that our method outperforms state-of-the-art methods in terms of visual quality and generalization ability, without requiring any paired data.
Abstract（参考訳）: 画素レベルの画像強調のためのCLIP(Contrastive Language- Image Pre-Training)の可能性を探ることにより,CLIP-LIT(CLIP-LIT)と略される新しいバックライト画像強調法を提案する。オープンワールドのCLIPは、バックライト画像と well-lit 画像の区別だけでなく、輝度の異なる異種領域の認識にも役立ち、拡張ネットワークの最適化が容易であることを示す。高レベルのタスクや画像操作タスクとは異なり、CLIPを拡張タスクに直接適用するのは簡単ではない。そこで本研究では,クリップ潜在空間におけるプロンプト(負/正のサンプル)と対応する画像(バックリット画像/ウェルリット画像)とのテキスト・イメージの類似性を制約することにより,最初に最初のプロンプトペアを学習するプロンプト学習フレームワークを考案する。次に,拡張結果と初期プロンプトペアとのテキスト・画像類似性に基づいて拡張ネットワークを訓練する。初期プロンプトペアの精度をさらに向上させるため,バックライト画像間の分布ギャップを低減し,結果の強化,ランク学習による高輝度画像とを反復的に微調整することで,エンハンスパフォーマンスの向上を図る。本手法は,視覚的に満足できる結果が得られるまで,プロンプト学習フレームワークとエンハンスメントネットワークの更新を交互に行う。広範な実験により,本手法は,データ対を必要とせず,視覚品質と一般化能力の観点から最先端の手法よりも優れていることが示された。

関連論文リスト

Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP [22.33658954569737]
我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
論文参考訳（メタデータ） (2024-12-16T02:03:45Z)
Leveraging Content and Context Cues for Low-Light Image Enhancement [25.97198463881292]
低照度条件はマシン認知に悪影響を及ぼし、現実のコンピュータビジョンシステムの性能を制限する。本稿では、CLIPモデルを利用して、画像の先行と意味的ガイダンスの取得により、既存のゼロ参照低照度化を改善することを提案する。提案手法は,画像のコントラストと色調の改善,背景背景の識別の改善に有効であることを示す。
論文参考訳（メタデータ） (2024-12-10T17:32:09Z)
Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。 CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文参考訳（メタデータ） (2024-09-03T14:33:01Z)
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。 FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文参考訳（メタデータ） (2024-08-21T15:30:35Z)
RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement [0.24578723416255752]
本稿では,教師なしバックライト画像強調作業におけるCLIP指導の新たな修正を提案する。この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。テキスト埋め込みの空間でプロンプトをチューニングする代わりに、品質を損なうことなく、埋め込みを直接調整できることが示される。
論文参考訳（メタデータ） (2024-04-02T12:28:40Z)
CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文参考訳（メタデータ） (2023-11-07T12:36:20Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文参考訳（メタデータ） (2022-11-23T07:00:11Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。