論文の概要: Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models
- arxiv url: http://arxiv.org/abs/2505.05163v1
- Date: Thu, 08 May 2025 11:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.866304
- Title: Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models
- Title(参考訳): 凍結ビジョンランゲージモデルに対する確率的埋め込み:ガウス過程潜在変数モデルによる不確かさの定量化
- Authors: Aishwarya Venkataramanan, Paul Bodesheim, Joachim Denzler,
- Abstract要約: 視覚言語モデル(VLM)は、画像とテキストを共有潜在空間にマッピングすることで、共同表現を学習する。
GroVEはGaussian Process Latent Variable Model (GPLVM)に基づいて構築され、画像とテキストの入力を統一表現にマッピングする共有低次元潜在空間を学習する。
GroVEは、クロスモーダル検索、視覚的質問応答、アクティブラーニングなど、複数の下流タスクにわたる最先端の不確実性キャリブレーションを実現する。
- 参考スコア(独自算出の注目度): 9.47743870776814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) learn joint representations by mapping images and text into a shared latent space. However, recent research highlights that deterministic embeddings from standard VLMs often struggle to capture the uncertainties arising from the ambiguities in visual and textual descriptions and the multiple possible correspondences between images and texts. Existing approaches tackle this by learning probabilistic embeddings during VLM training, which demands large datasets and does not leverage the powerful representations already learned by large-scale VLMs like CLIP. In this paper, we propose GroVE, a post-hoc approach to obtaining probabilistic embeddings from frozen VLMs. GroVE builds on Gaussian Process Latent Variable Model (GPLVM) to learn a shared low-dimensional latent space where image and text inputs are mapped to a unified representation, optimized through single-modal embedding reconstruction and cross-modal alignment objectives. Once trained, the Gaussian Process model generates uncertainty-aware probabilistic embeddings. Evaluation shows that GroVE achieves state-of-the-art uncertainty calibration across multiple downstream tasks, including cross-modal retrieval, visual question answering, and active learning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像とテキストを共有潜在空間にマッピングすることで、共同表現を学習する。
しかし、最近の研究では、標準的なVLMからの決定論的埋め込みは、視覚的・テキスト的記述のあいまいさや、画像とテキスト間の複数の対応から生じる不確実性を捉えるのに苦労することが多いことが強調されている。
既存のアプローチでは、大規模なデータセットを必要とし、CLIPのような大規模VLMですでに学んだ強力な表現を活用できない、VLMトレーニング中に確率的埋め込みを学ぶことで、この問題に対処している。
本稿では,凍結したVLMから確率的埋め込みを得るためのポストホックアプローチであるGroVEを提案する。
GroVEはGaussian Process Latent Variable Model (GPLVM)をベースに構築され、画像とテキストの入力を統一表現にマッピングする共有低次元の潜在空間を学習する。
一度訓練すると、ガウス過程モデルは不確実性を認識した確率的埋め込みを生成する。
評価の結果、GroVEは、クロスモーダル検索、視覚的質問応答、アクティブラーニングなど、複数の下流タスクにおける最先端の不確実性キャリブレーションを実現している。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。
既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。
本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。