論文の概要: How Semantically Informative is an Image?: Measuring the Covariance-Weighted Norm of Contrastive Learning Embeddings
- arxiv url: http://arxiv.org/abs/2506.22881v1
- Date: Sat, 28 Jun 2025 13:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.615192
- Title: How Semantically Informative is an Image?: Measuring the Covariance-Weighted Norm of Contrastive Learning Embeddings
- Title(参考訳): 意味的インフォーマティヴとは何か: コントラスト学習埋め込みの共分散重み付きノルムの測定
- Authors: Fumiya Uchiyama, Rintaro Yanagi, Shohei Taniguchi, Shota Takashiro, Masahiro Suzuki, Hirokatsu Kataoka, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: コントラスト学習モデルを用いてテキストサンプルから算出した画像に対する意味情報度指標を提案する。
画像上の条件付けが関連するテキストの分布を歪めているかを測定する。
- 参考スコア(独自算出の注目度): 29.802362373605263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning has the capacity to model multimodal probability distributions by embedding and aligning visual representations with semantics from captions. This approach enables the estimation of relational semantic similarity; however, it remains unclear whether it can also represent absolute semantic informativeness. In this work, we introduce a semantic informativeness metric for an image calculated from text samples via a contrastive learning model; similarly, the informativeness of a text is calculated from image samples. We propose a redefinition of the concept of Information Gain, a concept previously explored in natural language processing, extending its application to the domains of vision and language. Our metric quantifies how conditioning on an image distorts the distribution of associated texts, and vice versa for text conditioning on image distributions. In OpenCLIP's empirical results, we observe that images with the lowest Information Gain scores often correspond to placeholder icons such as "image not found." Furthermore, we propose to measure a norm-based metric of the embedding to estimate the Information Gain, following the theoretical results for Skip-Gram with Negative Sampling (SGNS) word embedding. Information Gain can be measured using either CLIP or SigLIP, and the results demonstrate a strong correlation with a coefficient of determination ranging from 0.98 to 1.00. After obtaining the mean and the covariance of the sample embedding, the computational cost of this method is independent of the sample size, and it is compatible with publicly available, open-weight models.
- Abstract(参考訳): コントラスト学習は、視覚表現をキャプションからのセマンティクスに埋め込んで整合させることにより、マルチモーダルな確率分布をモデル化する能力を持つ。
このアプローチは関係意味的類似性の推定を可能にするが、絶対意味的情報性も表現できるかどうかは不明である。
そこで本研究では,コントラスト学習モデルを用いてテキストサンプルから算出した画像の意味的情報度メトリックを導入し,同様に,画像サンプルからテキストの情報度を算出する。
本稿では,自然言語処理における情報ゲインの概念を再定義し,その応用範囲を視覚・言語分野に広げる。
本稿では,画像のコンディショニングが関連するテキストの分布を歪曲するかを定量化するとともに,画像のコンディショニングにおけるテキストコンディショニングについても検討する。
OpenCLIPの実証結果では、最も低い情報ゲインスコアを持つ画像は、しばしば「見つからない画像」のようなプレースホルダーアイコンに対応している。
さらに,SGNS(Skip-Gram with Negative Smpling)単語の埋め込みに関する理論的結果に従って,埋め込みの基準値を測定し,情報ゲインを推定する。
情報ゲインはCLIPまたはSigLIPを用いて測定でき、その結果は0.98から1.00までの判定係数と強い相関を示す。
サンプル埋め込みの平均値と共分散値を得た後、本手法の計算コストはサンプルサイズとは独立であり、一般に利用可能なオープンウェイトモデルと互換性がある。
関連論文リスト
- Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation [0.40792653193642503]
拡散モデルにおける画像生成の再現性、あるいは一貫性の解釈可能な定量的スコアの必要性を同定する。
セマンティック・コンセンサス・スコアとしてペア平均CLIPスコアを用いるセマンティック・アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T20:16:03Z) - Introspective Deep Metric Learning [91.47907685364036]
本稿では,不確実性を考慮した画像比較のためのイントロスペクティブな深度学習フレームワークを提案する。
提案するIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能を向上させる。
論文 参考訳(メタデータ) (2023-09-11T16:21:13Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。