論文の概要: Exploiting the Asymmetric Uncertainty Structure of Pre-trained VLMs on the Unit Hypersphere
- arxiv url: http://arxiv.org/abs/2505.11029v1
- Date: Fri, 16 May 2025 09:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.474469
- Title: Exploiting the Asymmetric Uncertainty Structure of Pre-trained VLMs on the Unit Hypersphere
- Title(参考訳): 単位超球面上の事前訓練VLMの不確かさ構造の爆発
- Authors: Li Ju, Max Andersson, Stina Fredriksson, Edward Glöckner, Andreas Hellander, Ekta Vats, Prashant Singh,
- Abstract要約: 本稿では,単位超球面上で事前学習された視覚言語モデルから確率的埋め込みを構築することを提案し,不確実な定量化を実現する。
確立されたベンチマークに対する確率的埋め込みの有効性を検証し,テキストおよび視覚データの不確実性構造における非対称性の性質を示す包括的アブレーション研究を行った。
- 参考スコア(独自算出の注目度): 0.301138495170623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) as foundation models have significantly enhanced performance across a wide range of visual and textual tasks, without requiring large-scale training from scratch for downstream tasks. However, these deterministic VLMs fail to capture the inherent ambiguity and uncertainty in natural language and visual data. Recent probabilistic post-hoc adaptation methods address this by mapping deterministic embeddings onto probability distributions; however, existing approaches do not account for the asymmetric uncertainty structure of the modalities, and the constraint that meaningful deterministic embeddings reside on a unit hypersphere, potentially leading to suboptimal performance. In this paper, we address the asymmetric uncertainty structure inherent in textual and visual data, and propose AsymVLM to build probabilistic embeddings from pre-trained VLMs on the unit hypersphere, enabling uncertainty quantification. We validate the effectiveness of the probabilistic embeddings on established benchmarks, and present comprehensive ablation studies demonstrating the inherent nature of asymmetry in the uncertainty structure of textual and visual data.
- Abstract(参考訳): 基礎モデルとしての視覚言語モデル(VLM)は、下流タスクのスクラッチから大規模トレーニングを必要とせず、幅広い視覚的タスクとテキスト的タスクでパフォーマンスを大幅に向上させた。
しかし、これらの決定論的VLMは、自然言語や視覚データに固有のあいまいさと不確実さを捉えることができない。
近年の確率論的ポストホック適応法は、決定論的埋め込みを確率分布にマッピングすることでこの問題に対処しているが、既存の手法では、モダリティの非対称な不確実性構造を考慮せず、有意な決定論的埋め込みが単位超球上に存在し、潜在的に準最適性能をもたらす。
本稿では,テキストデータや視覚データに固有の非対称な不確実性構造に対処し,不確実性定量化を実現するために,事前学習されたVLMを単位超球面上に埋め込み,確率的埋め込みを構築するAsymVLMを提案する。
確立されたベンチマークに対する確率的埋め込みの有効性を検証し,テキストおよび視覚データの不確実性構造における非対称性の性質を示す包括的アブレーション研究を行った。
関連論文リスト
- Exploring the Potential for Large Language Models to Demonstrate Rational Probabilistic Beliefs [12.489784979345654]
大規模言語モデル(LLM)の現在のバージョンには,確率論的信念の合理的かつ一貫性のある表現が欠如していることが示されている。
確率論的推論の基本的な性質に固執するLLMの能力を測定するために, 不確実性定量化のための確立された手法を適用した。
論文 参考訳(メタデータ) (2025-04-18T11:50:30Z) - Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Predictive Uncertainty Quantification for Bird's Eye View Segmentation: A Benchmark and Novel Loss Function [10.193504550494486]
本稿では,Bird's Eye View (BEV)セグメンテーションにおける予測不確実性定量化のためのベンチマークを提案する。
本研究は,非分類および非分布画素の検出における定量化不確実性の有効性に焦点をあてる。
本研究では,不均衡なデータに特化して設計された新しい損失関数Uncertainty-Focal-Cross-Entropy (UFCE)を提案する。
論文 参考訳(メタデータ) (2024-05-31T16:32:46Z) - Probabilistic Contrastive Learning with Explicit Concentration on the Hypersphere [3.572499139455308]
本稿では,球面空間に表現を埋め込むことにより,不確実性を比較学習に取り入れる新たな視点を提案する。
我々は、濃度パラメータであるカッパを直接解釈可能な尺度として利用し、不確実性を明示的に定量化する。
論文 参考訳(メタデータ) (2024-05-26T07:08:13Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Probabilistic computation and uncertainty quantification with emerging
covariance [11.79594512851008]
堅牢で解釈可能なセキュアなAIシステムを構築するには、確率論的視点の下で不確実性を定量化し、表現する必要がある。
確率計算は、ほとんどの従来の人工ニューラルネットワークにとって重要な課題である。
論文 参考訳(メタデータ) (2023-05-30T17:55:29Z) - Integrating Uncertainty into Neural Network-based Speech Enhancement [27.868722093985006]
時間周波数領域における監視されたマスキングアプローチは、ディープニューラルネットワークを使用して乗法マスクを推定し、クリーンな音声を抽出することを目的としている。
これにより、信頼性の保証や尺度を使わずに、各入力に対する単一の見積もりが導かれる。
クリーン音声推定における不確実性モデリングの利点について検討する。
論文 参考訳(メタデータ) (2023-05-15T15:55:12Z) - Non-Linear Spectral Dimensionality Reduction Under Uncertainty [107.01839211235583]
我々は、不確実性情報を活用し、いくつかの従来のアプローチを直接拡張する、NGEUと呼ばれる新しい次元削減フレームワークを提案する。
提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-02-09T19:01:33Z) - NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural
Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。
種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-07T12:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。