Fugu-MT 論文翻訳(概要): ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models

論文の概要: ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models

arxiv url: http://arxiv.org/abs/2307.00398v3
Date: Thu, 28 Sep 2023 21:13:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 18:07:08.362572
Title: ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models
Title（参考訳）: probvlm: 凍結視覚言語モデルのための確率的アダプタ
Authors: Uddeshya Upadhyay, Shyamgopal Karthik, Massimiliano Mancini, Zeynep Akata
Abstract要約: 本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
参考スコア（独自算出の注目度）: 69.50316788263433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale vision-language models (VLMs) like CLIP successfully find correspondences between images and text. Through the standard deterministic mapping process, an image or a text sample is mapped to a single vector in the embedding space. This is problematic: as multiple samples (images or text) can abstract the same concept in the physical world, deterministic embeddings do not reflect the inherent ambiguity in the embedding space. We propose ProbVLM, a probabilistic adapter that estimates probability distributions for the embeddings of pre-trained VLMs via inter/intra-modal alignment in a post-hoc manner without needing large-scale datasets or computing. On four challenging datasets, i.e., COCO, Flickr, CUB, and Oxford-flowers, we estimate the multi-modal embedding uncertainties for two VLMs, i.e., CLIP and BLIP, quantify the calibration of embedding uncertainties in retrieval tasks and show that ProbVLM outperforms other methods. Furthermore, we propose active learning and model selection as two real-world downstream tasks for VLMs and show that the estimated uncertainty aids both tasks. Lastly, we present a novel technique for visualizing the embedding distributions using a large-scale pre-trained latent diffusion model. Code is available at https://github.com/ExplainableML/ProbVLM.
Abstract（参考訳）: CLIPのような大規模視覚言語モデル(VLM)は、画像とテキストの対応を見つけることに成功した。標準決定論的マッピングプロセスにより、埋め込み空間内の1つのベクトルに画像またはテキストサンプルをマッピングする。複数のサンプル(画像やテキスト)が物理世界で同じ概念を抽象化できるため、決定論的埋め込みは埋め込み空間に固有の曖昧さを反映しない。本稿では,大規模データセットや計算を必要とせず,時間外アライメントによる事前学習VLMの埋め込みの確率分布を推定する確率的アダプタProbVLMを提案する。我々は,COCO,Flickr,CUB,オックスフォードフラワーの4つの挑戦的データセットにおいて,CLIPとBLIPの2つのVLMに対するマルチモーダル埋め込み不確かさを推定し,検索タスクにおける埋め込み不確かさのキャリブレーションを定量化し,ProbVLMが他の手法より優れていることを示す。さらに,VLMにおける2つの実世界の下流タスクとして,能動的学習とモデル選択を提案する。最後に,大規模な事前学習潜在拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。コードはhttps://github.com/ExplainableML/ProbVLMで入手できる。

関連論文リスト

D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。 P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文参考訳（メタデータ） (2026-01-25T14:59:09Z)
Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models [7.5752750293638735]
コントラッシブ・ビジョン言語モデルに対するトレーニング不要・ポストホック不確実性推定手法を提案する。我々の手法はVLM非依存であり、微調整を必要とせず、分散シフトに対する堅牢性を示し、1クラスにつき10のトレーニングイメージで効果的に機能する。
論文参考訳（メタデータ） (2025-11-27T01:48:27Z)
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models [9.47743870776814]
視覚言語モデル(VLM)は、画像とテキストを共有潜在空間にマッピングすることで、共同表現を学習する。 GroVEはGaussian Process Latent Variable Model (GPLVM)に基づいて構築され、画像とテキストの入力を統一表現にマッピングする共有低次元潜在空間を学習する。 GroVEは、クロスモーダル検索、視覚的質問応答、アクティブラーニングなど、複数の下流タスクにわたる最先端の不確実性キャリブレーションを実現する。
論文参考訳（メタデータ） (2025-05-08T11:57:35Z)
Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。 VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning) TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文参考訳（メタデータ） (2024-04-08T15:51:21Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-11T13:44:49Z)
Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。 MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文参考訳（メタデータ） (2024-01-09T10:15:59Z)
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model [35.52349231889843]
確率分布 (Probability Distribution, PDE) を用いて, 確率分布として全てのモダリティの表現を投影する。既存の決定論的手法と比較して、そのような不確実性モデリングはよりリッチなマルチモーダル意味情報を伝達することができる。本稿では,D-VLC(Dis Distribution-based Vision-Language Contrastive Learning),D-MLM(Dis Distribution-based Masked Language Modeling),D-ITM(Dis Distribution-based Image-Text Matching)を提案する。
論文参考訳（メタデータ） (2022-10-11T10:54:54Z)
Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文参考訳（メタデータ） (2020-08-25T06:00:06Z)
Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文参考訳（メタデータ） (2020-06-23T16:39:59Z)
Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文参考訳（メタデータ） (2020-03-10T03:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。