論文の概要: Whitened CLIP as a Likelihood Surrogate of Images and Captions
- arxiv url: http://arxiv.org/abs/2505.06934v1
- Date: Sun, 11 May 2025 10:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.122015
- Title: Whitened CLIP as a Likelihood Surrogate of Images and Captions
- Title(参考訳): 画像とキャプションの類似サロゲートとしてのWhitened CLIP
- Authors: Roy Betser, Meir Yossef Levi, Guy Gilboa,
- Abstract要約: 画像の近似は計算に簡単ではなく、多くのアプリケーションで有用である。
可逆線形演算によるCLIP潜在空間の新規変換である textitWhitened CLIP を導入する。
対数類似性は、白く埋め込まれた埋め込み空間の平方ユークリッドノルムによって単純に推定されることを示す。
- 参考スコア(独自算出の注目度): 3.5707423185282656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Likelihood approximations for images are not trivial to compute and can be useful in many applications. We examine the use of Contrastive Language-Image Pre-training (CLIP) to assess the likelihood of images and captions. We introduce \textit{Whitened CLIP}, a novel transformation of the CLIP latent space via an invertible linear operation. This transformation ensures that each feature in the embedding space has zero mean, unit standard deviation, and no correlation with all other features, resulting in an identity covariance matrix. We show that the whitened embeddings statistics can be well approximated as a standard normal distribution, thus, the log-likelihood is estimated simply by the square Euclidean norm in the whitened embedding space. The whitening procedure is completely training-free and performed using a pre-computed whitening matrix, hence, is very fast. We present several preliminary experiments demonstrating the properties and applicability of these likelihood scores to images and captions.
- Abstract(参考訳): 画像の近似は計算に簡単ではなく、多くのアプリケーションで有用である。
コントラスト言語-画像事前学習(CLIP)を用いて画像とキャプションの可能性を評価する。
可逆線形演算によるCLIP潜在空間の新規な変換である \textit{Whitened CLIP} を導入する。
この変換により、埋め込み空間内の各特徴がゼロ平均、単位標準偏差を持ち、他の特徴と相関がないことが保証され、従って恒等共分散行列となる。
ホワイトド埋め込み統計学は標準正規分布としてよく近似できるので、この対数類似性はホワイトド埋め込み空間の平方ユークリッドノルムによって単純に推定される。
ホワイトニング手順は完全にトレーニング不要であり、プリ計算されたホワイトニングマトリックスを使用して実行されるため、非常に高速である。
画像とキャプションに対するこれらの可能性スコアの特性と適用性を示す予備実験をいくつか提示する。
関連論文リスト
- Implicit Inversion turns CLIP into a Decoder [15.428694454730541]
画像合成はCLIPだけで可能であり、デコーダ、トレーニング、微調整は不要である。
提案手法は,ネットワーク層間を階層化することで,粗大から粗大な生成を促進する,周波数認識型暗黙的ニューラル表現を最適化する。
CLIPの重みを変更することなく、このフレームワークはテキスト・ツー・イメージ生成、スタイル転送、イメージ再構成などの機能をアンロックする。
論文 参考訳(メタデータ) (2025-05-29T06:55:26Z) - Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - The Double-Ellipsoid Geometry of CLIP [4.013156524547072]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は機械学習アプリケーションにおいて非常に有効である。
テキストと画像は, 原点中心ではなく, 線形分離可能な楕円体殻上に存在することを示す。
インスタンスの任意の他のインスタンスに対する平均コサイン類似度を測定する、新しい整合性の概念が導入された。
論文 参考訳(メタデータ) (2024-11-21T16:27:22Z) - Whitening-based Contrastive Learning of Sentence Embeddings [61.38955786965527]
文埋め込み学習(WhitenedCSE)のためのホワイトニングに基づくコントラスト学習手法を提案する。
これら2つのアプローチは完全に冗長ではなく、実際には異なる一様性機構のために相補性を持っていることが分かる。
論文 参考訳(メタデータ) (2023-05-28T14:58:10Z) - Modulate Your Spectrum in Self-Supervised Learning [65.963806450552]
ホワイトニング損失は、自己教師付き学習における特徴の崩壊に対する理論的保証を提供する。
埋め込みのスペクトルを変調するフレームワークであるスペクトル変換(ST)を導入する。
我々は、トレースロス(INTL)を持つIterNormという新しいSTインスタンスを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:59:48Z) - Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical
Invariance [104.05734286732941]
FINOLAは、潜在空間内の各画像を1次自己回帰プロセスとして表現する。
FINOLAの256x256機能マップへの自動回帰機能を示す。
また、簡単なマスク付き予測手法を用いて、FINOLAを自己教師型学習に活用する。
論文 参考訳(メタデータ) (2023-05-25T17:59:50Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Improving Generalization of Batch Whitening by Convolutional Unit
Optimization [24.102442375834084]
バッチホワイトニング(Batch Whitening)は、入力特徴をゼロ平均(Centering)と単位分散(Scaling)に変換することで、トレーニングを加速し、安定化する技術である。
バッチ正規化を経験的に最適化した一般的な構造では、正規化層は畳み込みとアクティベーション関数の間に現れる。
本稿では,この理論に則った新しい畳み込み単位を提案する。
論文 参考訳(メタデータ) (2021-08-24T10:27:57Z) - Predicting What You Already Know Helps: Provable Self-Supervised
Learning [60.27658820909876]
自己教師付き表現学習は、ラベル付きデータを必要としない補助的な予測タスク(プリテキストタスクと呼ばれる)を解決する。
本研究では,特定のエミュレーションに基づくプレテキストタスク間の統計的関係を利用して,優れた表現を学習することを保証する機構を示す。
複素基底真理関数クラスにおいても線形層は近似誤差が小さいことを証明した。
論文 参考訳(メタデータ) (2020-08-03T17:56:13Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。