Fugu-MT 論文翻訳(概要): RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement

論文の概要: RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement

arxiv url: http://arxiv.org/abs/2404.01889v1
Date: Tue, 2 Apr 2024 12:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 16:28:46.629035
Title: RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement
Title（参考訳）: RAVE:CLIP誘導バックライト画像強調のための残留ベクトル埋め込み
Authors: Tatiana Gaintseva, Marting Benning, Gregory Slabaugh,
Abstract要約: 本稿では,教師なしバックライト画像強調作業におけるCLIP指導の新たな修正を提案する。この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。テキスト埋め込みの空間でプロンプトをチューニングする代わりに、品質を損なうことなく、埋め込みを直接調整できることが示される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper we propose a novel modification of Contrastive Language-Image Pre-Training (CLIP) guidance for the task of unsupervised backlit image enhancement. Our work builds on the state-of-the-art CLIP-LIT approach, which learns a prompt pair by constraining the text-image similarity between a prompt (negative/positive sample) and a corresponding image (backlit image/well-lit image) in the CLIP embedding space. Learned prompts then guide an image enhancement network. Based on the CLIP-LIT framework, we propose two novel methods for CLIP guidance. First, we show that instead of tuning prompts in the space of text embeddings, it is possible to directly tune their embeddings in the latent space without any loss in quality. This accelerates training and potentially enables the use of additional encoders that do not have a text encoder. Second, we propose a novel approach that does not require any prompt tuning. Instead, based on CLIP embeddings of backlit and well-lit images from training data, we compute the residual vector in the embedding space as a simple difference between the mean embeddings of the well-lit and backlit images. This vector then guides the enhancement network during training, pushing a backlit image towards the space of well-lit images. This approach further dramatically reduces training time, stabilizes training and produces high quality enhanced images without artifacts, both in supervised and unsupervised training regimes. Additionally, we show that residual vectors can be interpreted, revealing biases in training data, and thereby enabling potential bias correction.
Abstract（参考訳）: 本稿では,教師なしバックライト画像強調作業のためのコントラスト言語画像事前訓練(CLIP)の新たな修正を提案する。この手法は,CLIP埋め込み空間内のプロンプト(負・正のサンプル)と対応する画像(バックライト画像/ウェルリット画像)とのテキストイメージの類似性を制約することにより,プロンプトペアを学習する。学習したプロンプトは、画像拡張ネットワークをガイドする。 CLIP-LITフレームワークに基づいて,CLIP誘導のための2つの新しい手法を提案する。まず、テキスト埋め込みの空間において、プロンプトをチューニングする代わりに、その埋め込みを直接、品質を損なうことなく調整できることを示す。これにより、トレーニングが加速し、テキストエンコーダを持たない追加のエンコーダの使用が可能になる。第2に,即時チューニングを必要としない新しい手法を提案する。代わりに、トレーニングデータからのバックライト画像とバックライト画像のCLIP埋め込みに基づいて、埋め込み空間における残差ベクトルを、バックライト画像とバックライト画像の平均埋め込みとの単純な差として計算する。このベクターはトレーニング中にエンハンスメントネットワークを誘導し、バックライトイメージを明るい画像の空間にプッシュする。このアプローチはトレーニング時間を劇的に短縮し、トレーニングを安定化し、教師なしのトレーニング体制と教師なしのトレーニング体制の両方において、アーティファクトなしで高品質な画像を生成する。さらに、残差ベクトルを解釈し、トレーニングデータのバイアスを明らかにし、潜在的なバイアス補正を可能にすることを示す。

関連論文リスト

Implicit Inversion turns CLIP into a Decoder [15.428694454730541]
画像合成はCLIPだけで可能であり、デコーダ、トレーニング、微調整は不要である。提案手法は,ネットワーク層間を階層化することで,粗大から粗大な生成を促進する,周波数認識型暗黙的ニューラル表現を最適化する。 CLIPの重みを変更することなく、このフレームワークはテキスト・ツー・イメージ生成、スタイル転送、イメージ再構成などの機能をアンロックする。
論文参考訳（メタデータ） (2025-05-29T06:55:26Z)
CURVE: CLIP-Utilized Reinforcement Learning for Visual Image Enhancement via Simple Image Processing [0.5803309695504829]
低光画像強調(LLIE)は、人間の知覚とコンピュータビジョンの両方を改善するために重要である。本稿では、ゼロ参照LLIEにおける2つの課題として、知覚的に「良い」画像を取得し、高解像度画像の計算効率を維持することを挙げる。私たちはCLIPを利用した強化学習に基づく視覚強調(CURVE)を提案する。
論文参考訳（メタデータ） (2025-05-29T05:09:13Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。 CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文参考訳（メタデータ） (2023-08-23T10:25:37Z)
The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文参考訳（メタデータ） (2023-05-22T04:52:12Z)
Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文参考訳（メタデータ） (2023-03-30T17:37:14Z)
CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。 CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文参考訳（メタデータ） (2022-11-28T04:07:17Z)
clip2latent: Text driven sampling of a pre-trained StyleGAN using denoising diffusion and CLIP [1.3733526575192976]
事前学習したCLIPとStyleGANからテキスト・ツー・イメージ・モデルを効率的に作成するための新しい手法を提案する。外部データや微調整を必要とせずに、既存の生成モデルによるテキスト駆動サンプリングを可能にする。 CLIPのイメージとテキスト埋め込みのアライメントを活用して、条件付き拡散モデルをトレーニングするためのラベル付きデータを必要としないようにする。
論文参考訳（メタデータ） (2022-10-05T15:49:41Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。