論文の概要: Scendi Score: Prompt-Aware Diversity Evaluation via Schur Complement of CLIP Embeddings
- arxiv url: http://arxiv.org/abs/2412.18645v3
- Date: Sun, 03 Aug 2025 06:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:55.886922
- Title: Scendi Score: Prompt-Aware Diversity Evaluation via Schur Complement of CLIP Embeddings
- Title(参考訳): Scendi Score: CLIP埋め込みのSchur補間による多様性評価
- Authors: Azim Ospanov, Mohammad Jalali, Farzan Farnia,
- Abstract要約: 本研究では,CLIP埋め込みの応用を拡張し,テキスト・画像モデル固有の多様性を定量化し,解釈する。
画像データのCLIPベースのカーネル共分散行列をテキストベースおよび非テキストベースコンポーネントに分解する。
以上の結果から,Scendiスコアが突発誘導生成モデルの本質的な多様性を捉えたことが示唆された。
- 参考スコア(独自算出の注目度): 8.056359341994941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of CLIP embeddings to assess the fidelity of samples produced by text-to-image generative models has been extensively explored in the literature. While the widely adopted CLIPScore, derived from the cosine similarity of text and image embeddings, effectively measures the alignment of a generated image, it does not quantify the diversity of images generated by a text-to-image model. In this work, we extend the application of CLIP embeddings to quantify and interpret the intrinsic diversity of text-to-image models, which are responsible for generating diverse images from similar text prompts, which we refer to as prompt-aware diversity. To achieve this, we propose a decomposition of the CLIP-based kernel covariance matrix of image data into text-based and non-text-based components. Using the Schur complement of the joint image-text kernel covariance matrix, we perform this decomposition and define the matrix-based entropy of the decomposed component as the Schur Complement ENtopy DIversity (Scendi) score, as a measure of the prompt-aware diversity for prompt-guided generative models. Additionally, we discuss the application of the Schur complement-based decomposition to nullify the influence of a given prompt on the CLIP embedding of an image, enabling focus or defocus of the embedded vectors on specific objects. We present several numerical results that apply our proposed Scendi score to evaluate text-to-image and LLM (text-to-text) models. Our numerical results indicate the success of the Scendi score in capturing the intrinsic diversity of prompt-guided generative models. The codebase is available at https://github.com/aziksh-ospanov/scendi-score.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルにより生成されたサンプルの忠実度を評価するためのCLIP埋め込みの使用は、文献で広く研究されている。
テキストと画像埋め込みのコサイン類似性から導かれる広く採用されているCLIPScoreは、生成された画像のアライメントを効果的に測定するが、テキスト・ツー・イメージ・モデルによって生成された画像の多様性を定量化しない。
本研究では,類似したテキストプロンプトから多様な画像を生成することを担うテキスト・ツー・イメージ・モデルの本質的な多様性を定量化し,解釈するために,CLIP埋め込みの適用を拡大する。
そこで本研究では,画像データのCLIPベースのカーネル共分散行列をテキストベースおよび非テキストベースコンポーネントに分解する。
この分解を行い、分解された成分の行列ベースのエントロピーをScendi(Schur Complement ENtopy DIversity)スコアとして定義する。
さらに、画像のCLIP埋め込みにおける与えられたプロンプトの影響を無効化するために、Schur補足分解の適用について議論し、埋め込みベクトルの特定のオブジェクトへのフォーカスやデフォーカスを可能にする。
本稿では,テキスト・トゥ・イメージとLLM(text-to-text)モデルを評価するために,提案したScendiスコアを適用した数値結果を提案する。
以上の結果から,Scendiスコアが突発誘導生成モデルの本質的な多様性を捉えたことが示唆された。
コードベースはhttps://github.com/aziksh-ospanov/scendi-scoreで公開されている。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Improving Compositional Attribute Binding in Text-to-Image Generative Models via Enhanced Text Embeddings [46.723653095494896]
テキストから画像への生成モデルにおける合成属性の結合障害について検討する。
CLIPテキストエンコーダによる不完全なテキストコンディショニングは、これらのモデルが高忠実な構成シーンを生成することができない主な理由の1つであることを示す。
本研究の主目的は,モデルのFIDスコアを損なうことなく,構成上の大幅な改善が達成できることである。
論文 参考訳(メタデータ) (2024-06-12T03:21:34Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - Image Captioning with Compositional Neural Module Networks [18.27510863075184]
自然言語の合成性と順序性の両方を探求する画像キャプションのための階層的枠組みを導入する。
提案アルゴリズムは,入力画像で検出された各オブジェクトの特異な側面に対応する異なるモジュールに選択的に参加することで,詳細に富んだ文を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-10T20:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。