論文の概要: Dissecting CLIP: Decomposition with a Schur Complement-based Approach
- arxiv url: http://arxiv.org/abs/2412.18645v2
- Date: Tue, 25 Mar 2025 09:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:04.925139
- Title: Dissecting CLIP: Decomposition with a Schur Complement-based Approach
- Title(参考訳): CLIPの分解: Schur補間に基づく分解
- Authors: Azim Ospanov, Mohammad Jalali, Farzan Farnia,
- Abstract要約: テキスト・ツー・イメージ・モデルの本質的な多様性を定量化し,解釈するために,CLIP埋め込みの応用を拡張した。
画像のCLIP埋め込みにおいて、与えられたプロンプトの影響を無効化するために、Schur補数に基づく分解を用いることを実証する。
- 参考スコア(独自算出の注目度): 8.056359341994941
- License:
- Abstract: The use of CLIP embeddings to assess the alignment of samples produced by text-to-image generative models has been extensively explored in the literature. While the widely adopted CLIPScore, derived from the cosine similarity of text and image embeddings, effectively measures the relevance of a generated image, it does not quantify the diversity of images generated by a text-to-image model. In this work, we extend the application of CLIP embeddings to quantify and interpret the intrinsic diversity of text-to-image models, which is responsible for generating diverse images from similar text prompts. To achieve this, we propose a decomposition of the CLIP-based kernel covariance matrix of image data into text-based and non-text-based components. Using the Schur complement of the joint image-text kernel covariance matrix, we perform this decomposition and define the matrix-based entropy of the decomposed component as the \textit{Schur Complement Entropy (SCE)} score, a measure of the intrinsic diversity of a text-to-image model based on data collected with varying text prompts. Additionally, we demonstrate the use of the Schur complement-based decomposition to nullify the influence of a given prompt in the CLIP embedding of an image, enabling focus or defocus of embeddings on specific objects or properties for downstream tasks. We present several numerical results that apply our Schur complement-based approach to evaluate text-to-image models and modify CLIP image embeddings. The codebase is available at https://github.com/aziksh-ospanov/CLIP-DISSECTION
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルにより生成されたサンプルのアライメントを評価するためにCLIP埋め込みを用いることは、文献で広く研究されている。
テキストと画像埋め込みのコサイン類似性から導かれる広く採用されているCLIPScoreは、生成された画像の関連性を効果的に測定するが、テキスト・ツー・イメージ・モデルによって生成された画像の多様性を定量化しない。
本研究では,類似のテキストプロンプトから多彩な画像を生成するCLIP埋め込みの応用を拡張し,テキスト・ツー・イメージ・モデルの本質的な多様性を定量化し,解釈する。
そこで本研究では,画像データのCLIPベースのカーネル共分散行列をテキストベースおよび非テキストベースコンポーネントに分解する。
共同画像-テキストカーネル共分散行列のシュール補数を用いて、この分解を行い、分解された成分の行列ベースのエントロピーを、様々なテキストプロンプトで収集されたデータに基づくテキスト-画像モデル固有の多様性の尺度である \textit{Schur Complement Entropy (SCE) スコアとして定義する。
さらに、画像のCLIP埋め込みにおいて、与えられたプロンプトの影響を無効化するために、Schur補体ベースの分解を使うことで、特定のオブジェクトや下流タスクのプロパティへの埋め込みのフォーカスやデフォーカスを可能にする。
テキスト・ツー・イメージ・モデルの評価とCLIP画像の埋め込みの修正にSchur補体に基づくアプローチを適用した数値結果を提案する。
コードベースはhttps://github.com/aziksh-ospanov/CLIP-DISSECTIONで公開されている。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。