論文の概要: RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement
- arxiv url: http://arxiv.org/abs/2404.01889v2
- Date: Wed, 3 Apr 2024 09:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:43:37.887017
- Title: RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement
- Title(参考訳): RAVE:CLIP誘導バックライト画像強調のための残留ベクトル埋め込み
- Authors: Tatiana Gaintseva, Martin Benning, Gregory Slabaugh,
- Abstract要約: 本稿では,教師なしバックライト画像強調作業におけるCLIP指導の新たな修正を提案する。
この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。
テキスト埋め込みの空間でプロンプトをチューニングする代わりに、品質を損なうことなく、埋め込みを直接調整できることが示される。
- 参考スコア(独自算出の注目度): 0.24578723416255752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose a novel modification of Contrastive Language-Image Pre-Training (CLIP) guidance for the task of unsupervised backlit image enhancement. Our work builds on the state-of-the-art CLIP-LIT approach, which learns a prompt pair by constraining the text-image similarity between a prompt (negative/positive sample) and a corresponding image (backlit image/well-lit image) in the CLIP embedding space. Learned prompts then guide an image enhancement network. Based on the CLIP-LIT framework, we propose two novel methods for CLIP guidance. First, we show that instead of tuning prompts in the space of text embeddings, it is possible to directly tune their embeddings in the latent space without any loss in quality. This accelerates training and potentially enables the use of additional encoders that do not have a text encoder. Second, we propose a novel approach that does not require any prompt tuning. Instead, based on CLIP embeddings of backlit and well-lit images from training data, we compute the residual vector in the embedding space as a simple difference between the mean embeddings of the well-lit and backlit images. This vector then guides the enhancement network during training, pushing a backlit image towards the space of well-lit images. This approach further dramatically reduces training time, stabilizes training and produces high quality enhanced images without artifacts, both in supervised and unsupervised training regimes. Additionally, we show that residual vectors can be interpreted, revealing biases in training data, and thereby enabling potential bias correction.
- Abstract(参考訳): 本稿では,教師なしバックライト画像強調作業のためのコントラスト言語画像事前訓練(CLIP)の新たな修正を提案する。
この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。
学習したプロンプトは、画像拡張ネットワークをガイドする。
CLIP-LITフレームワークに基づいて,CLIP誘導のための2つの新しい手法を提案する。
まず、テキスト埋め込みの空間において、プロンプトをチューニングする代わりに、その埋め込みを直接、品質を損なうことなく調整できることを示す。
これにより、トレーニングが加速し、テキストエンコーダを持たない追加のエンコーダの使用が可能になる。
第2に,即時チューニングを必要としない新しい手法を提案する。
代わりに、トレーニングデータからのバックライト画像とバックライト画像のCLIP埋め込みに基づいて、埋め込み空間における残差ベクトルを、バックライト画像とバックライト画像の平均埋め込みとの単純な差として計算する。
このベクターはトレーニング中にエンハンスメントネットワークを誘導し、バックライトイメージを明るい画像の空間にプッシュする。
このアプローチはトレーニング時間を劇的に短縮し、トレーニングを安定化し、教師なしのトレーニング体制と教師なしのトレーニング体制の両方において、アーティファクトなしで高品質な画像を生成する。
さらに、残差ベクトルを解釈し、トレーニングデータのバイアスを明らかにし、潜在的なバイアス補正を可能にすることを示す。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文 参考訳(メタデータ) (2023-05-22T04:52:12Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - clip2latent: Text driven sampling of a pre-trained StyleGAN using
denoising diffusion and CLIP [1.3733526575192976]
事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。
外部データや微調整を必要とせずに、既存の生成モデルによるテキスト駆動サンプリングを可能にする。
CLIPのイメージとテキスト埋め込みのアライメントを活用して、条件付き拡散モデルをトレーニングするためのラベル付きデータを必要としないようにする。
論文 参考訳(メタデータ) (2022-10-05T15:49:41Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。