論文の概要: Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes
- arxiv url: http://arxiv.org/abs/2512.14177v1
- Date: Tue, 16 Dec 2025 08:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.632853
- Title: Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes
- Title(参考訳): セマンティックガウス過程によるLVLMのセマンティック不確実性定量化の改善
- Authors: Joseph Hoche, Andrei Bursuc, David Brellmann, Gilles Louppe, Pavel Izmailov, Angela Yao, Gianni Franchi,
- Abstract要約: 本稿では,解答埋め込みの幾何学的構造を解析し,意味的不確実性を定量化するベイズ的枠組みを提案する。
S GPUは、生成した回答を密接なセマンティック空間にマッピングし、セマンティック埋め込みのグラム行列を計算し、セマンティック構成を要約する。
我々は,SGPUがモデルとモダリティをまたいで転送されることを示し,そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
- 参考スコア(独自算出の注目度): 60.75226150503949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) often produce plausible but unreliable outputs, making robust uncertainty estimation essential. Recent work on semantic uncertainty estimates relies on external models to cluster multiple sampled responses and measure their semantic consistency. However, these clustering methods are often fragile, highly sensitive to minor phrasing variations, and can incorrectly group or separate semantically similar answers, leading to unreliable uncertainty estimates. We propose Semantic Gaussian Process Uncertainty (SGPU), a Bayesian framework that quantifies semantic uncertainty by analyzing the geometric structure of answer embeddings, avoiding brittle clustering. SGPU maps generated answers into a dense semantic space, computes the Gram matrix of their embeddings, and summarizes their semantic configuration via the eigenspectrum. This spectral representation is then fed into a Gaussian Process Classifier that learns to map patterns of semantic consistency to predictive uncertainty, and that can be applied in both black-box and white-box settings. Across six LLMs and LVLMs on eight datasets spanning VQA, image classification, and textual QA, SGPU consistently achieves state-of-the-art calibration (ECE) and discriminative (AUROC, AUARC) performance. We further show that SGPU transfers across models and modalities, indicating that its spectral representation captures general patterns of semantic uncertainty.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、しばしば可塑性だが信頼性の低い出力を生成するため、確実な不確実性推定が不可欠である。
セマンティック不確実性推定に関する最近の研究は、複数のサンプル応答をクラスタリングし、それらのセマンティック一貫性を測定するために外部モデルに依存している。
しかし、これらのクラスタリング法は、しばしば脆弱であり、マイナーなフレーズのバリエーションに非常に敏感であり、誤ったグループ化やセマンティックに類似した解の分離が可能であり、信頼性の低い不確実性推定に繋がる。
本稿では,解答埋め込みの幾何学的構造を分析して意味的不確実性を定量化するセマンティックガウス過程不確実性(SGPU)を提案する。
SGPUは、生成した回答を密接なセマンティック空間にマッピングし、埋め込みのグラム行列を計算し、固有スペクトルを通してそれらのセマンティック構成を要約する。
このスペクトル表現は、意味的一貫性のパターンを予測の不確実性にマッピングすることを学び、ブラックボックスとホワイトボックスの両方で適用できるガウスプロセス分類器に入力される。
VQA、画像分類、テキストQAにまたがる8つのデータセット上の6つのLLMとLVLMに対して、SGPUは一貫して最先端の校正(ECE)と差別的(AUROC、AUARC)のパフォーマンスを達成する。
さらに、SGPUはモデルとモダリティをまたいで移動し、そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
関連論文リスト
- EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images [7.069718718698565]
既存のマッピング手法は、しばしば自信過剰なセマンティックな予測や、スパースでノイズの多い深度検知に悩まされる。
深度推定とセマンティックセグメンテーションに明らかな頭部を用いたマルチタスク学習フレームワークであるEvidMTLを紹介する。
本研究では,不確実性を考慮したセマンティックサーフェスマッピングフレームワークであるEvidKimeraを提案する。
論文 参考訳(メタデータ) (2025-03-06T13:56:48Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty [6.986230616834552]
本稿では,新しい確率的マッピングアルゴリズムであるlatntBKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
LatentBKIは、人気のMatterport3DとSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価されている。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-15T17:02:32Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。