論文の概要: Whitened CLIP as a Likelihood Surrogate of Images and Captions
- arxiv url: http://arxiv.org/abs/2505.06934v1
- Date: Sun, 11 May 2025 10:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.122015
- Title: Whitened CLIP as a Likelihood Surrogate of Images and Captions
- Title(参考訳): 画像とキャプションの類似サロゲートとしてのWhitened CLIP
- Authors: Roy Betser, Meir Yossef Levi, Guy Gilboa,
- Abstract要約: 画像の近似は計算に簡単ではなく、多くのアプリケーションで有用である。
可逆線形演算によるCLIP潜在空間の新規変換である textitWhitened CLIP を導入する。
対数類似性は、白く埋め込まれた埋め込み空間の平方ユークリッドノルムによって単純に推定されることを示す。
- 参考スコア(独自算出の注目度): 3.5707423185282656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Likelihood approximations for images are not trivial to compute and can be useful in many applications. We examine the use of Contrastive Language-Image Pre-training (CLIP) to assess the likelihood of images and captions. We introduce \textit{Whitened CLIP}, a novel transformation of the CLIP latent space via an invertible linear operation. This transformation ensures that each feature in the embedding space has zero mean, unit standard deviation, and no correlation with all other features, resulting in an identity covariance matrix. We show that the whitened embeddings statistics can be well approximated as a standard normal distribution, thus, the log-likelihood is estimated simply by the square Euclidean norm in the whitened embedding space. The whitening procedure is completely training-free and performed using a pre-computed whitening matrix, hence, is very fast. We present several preliminary experiments demonstrating the properties and applicability of these likelihood scores to images and captions.
- Abstract(参考訳): 画像の近似は計算に簡単ではなく、多くのアプリケーションで有用である。
コントラスト言語-画像事前学習(CLIP)を用いて画像とキャプションの可能性を評価する。
可逆線形演算によるCLIP潜在空間の新規な変換である \textit{Whitened CLIP} を導入する。
この変換により、埋め込み空間内の各特徴がゼロ平均、単位標準偏差を持ち、他の特徴と相関がないことが保証され、従って恒等共分散行列となる。
ホワイトド埋め込み統計学は標準正規分布としてよく近似できるので、この対数類似性はホワイトド埋め込み空間の平方ユークリッドノルムによって単純に推定される。
ホワイトニング手順は完全にトレーニング不要であり、プリ計算されたホワイトニングマトリックスを使用して実行されるため、非常に高速である。
画像とキャプションに対するこれらの可能性スコアの特性と適用性を示す予備実験をいくつか提示する。
関連論文リスト
- Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - The Double-Ellipsoid Geometry of CLIP [4.013156524547072]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は機械学習アプリケーションにおいて非常に有効である。
テキストと画像は, 原点中心ではなく, 線形分離可能な楕円体殻上に存在することを示す。
インスタンスの任意の他のインスタンスに対する平均コサイン類似度を測定する、新しい整合性の概念が導入された。
論文 参考訳(メタデータ) (2024-11-21T16:27:22Z) - Modulate Your Spectrum in Self-Supervised Learning [65.963806450552]
ホワイトニング損失は、自己教師付き学習における特徴の崩壊に対する理論的保証を提供する。
埋め込みのスペクトルを変調するフレームワークであるスペクトル変換(ST)を導入する。
我々は、トレースロス(INTL)を持つIterNormという新しいSTインスタンスを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:59:48Z) - Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical
Invariance [104.05734286732941]
FINOLAは、潜在空間内の各画像を1次自己回帰プロセスとして表現する。
FINOLAの256x256機能マップへの自動回帰機能を示す。
また、簡単なマスク付き予測手法を用いて、FINOLAを自己教師型学習に活用する。
論文 参考訳(メタデータ) (2023-05-25T17:59:50Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Improving Generalization of Batch Whitening by Convolutional Unit
Optimization [24.102442375834084]
バッチホワイトニング(Batch Whitening)は、入力特徴をゼロ平均(Centering)と単位分散(Scaling)に変換することで、トレーニングを加速し、安定化する技術である。
バッチ正規化を経験的に最適化した一般的な構造では、正規化層は畳み込みとアクティベーション関数の間に現れる。
本稿では,この理論に則った新しい畳み込み単位を提案する。
論文 参考訳(メタデータ) (2021-08-24T10:27:57Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。