論文の概要: Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes
- arxiv url: http://arxiv.org/abs/2512.14177v1
- Date: Tue, 16 Dec 2025 08:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.632853
- Title: Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes
- Title(参考訳): セマンティックガウス過程によるLVLMのセマンティック不確実性定量化の改善
- Authors: Joseph Hoche, Andrei Bursuc, David Brellmann, Gilles Louppe, Pavel Izmailov, Angela Yao, Gianni Franchi,
- Abstract要約: 本稿では,解答埋め込みの幾何学的構造を解析し,意味的不確実性を定量化するベイズ的枠組みを提案する。
S GPUは、生成した回答を密接なセマンティック空間にマッピングし、セマンティック埋め込みのグラム行列を計算し、セマンティック構成を要約する。
我々は,SGPUがモデルとモダリティをまたいで転送されることを示し,そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
- 参考スコア(独自算出の注目度): 60.75226150503949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) often produce plausible but unreliable outputs, making robust uncertainty estimation essential. Recent work on semantic uncertainty estimates relies on external models to cluster multiple sampled responses and measure their semantic consistency. However, these clustering methods are often fragile, highly sensitive to minor phrasing variations, and can incorrectly group or separate semantically similar answers, leading to unreliable uncertainty estimates. We propose Semantic Gaussian Process Uncertainty (SGPU), a Bayesian framework that quantifies semantic uncertainty by analyzing the geometric structure of answer embeddings, avoiding brittle clustering. SGPU maps generated answers into a dense semantic space, computes the Gram matrix of their embeddings, and summarizes their semantic configuration via the eigenspectrum. This spectral representation is then fed into a Gaussian Process Classifier that learns to map patterns of semantic consistency to predictive uncertainty, and that can be applied in both black-box and white-box settings. Across six LLMs and LVLMs on eight datasets spanning VQA, image classification, and textual QA, SGPU consistently achieves state-of-the-art calibration (ECE) and discriminative (AUROC, AUARC) performance. We further show that SGPU transfers across models and modalities, indicating that its spectral representation captures general patterns of semantic uncertainty.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、しばしば可塑性だが信頼性の低い出力を生成するため、確実な不確実性推定が不可欠である。
セマンティック不確実性推定に関する最近の研究は、複数のサンプル応答をクラスタリングし、それらのセマンティック一貫性を測定するために外部モデルに依存している。
しかし、これらのクラスタリング法は、しばしば脆弱であり、マイナーなフレーズのバリエーションに非常に敏感であり、誤ったグループ化やセマンティックに類似した解の分離が可能であり、信頼性の低い不確実性推定に繋がる。
本稿では,解答埋め込みの幾何学的構造を分析して意味的不確実性を定量化するセマンティックガウス過程不確実性(SGPU)を提案する。
SGPUは、生成した回答を密接なセマンティック空間にマッピングし、埋め込みのグラム行列を計算し、固有スペクトルを通してそれらのセマンティック構成を要約する。
このスペクトル表現は、意味的一貫性のパターンを予測の不確実性にマッピングすることを学び、ブラックボックスとホワイトボックスの両方で適用できるガウスプロセス分類器に入力される。
VQA、画像分類、テキストQAにまたがる8つのデータセット上の6つのLLMとLVLMに対して、SGPUは一貫して最先端の校正(ECE)と差別的(AUROC、AUARC)のパフォーマンスを達成する。
さらに、SGPUはモデルとモダリティをまたいで移動し、そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
関連論文リスト
- ReFRAME or Remain: Unsupervised Lexical Semantic Change Detection with Frame Semantics [1.1340133299604382]
本研究では,フレームのセマンティクスに基づく意味変化検出手法を開発した。
本手法は意味変化の検出に有効であり,多くの分布意味モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-04T13:00:49Z) - Transparent Semantic Change Detection with Dependency-Based Profiles [1.1340133299604382]
単語の依存性共起パターンを純粋に依存する代替手法について検討する。
意味的変化の検出には有効であることを示すとともに,多くの分布意味モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-01-06T10:25:36Z) - EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images [7.069718718698565]
既存のマッピング手法は、しばしば自信過剰なセマンティックな予測や、スパースでノイズの多い深度検知に悩まされる。
深度推定とセマンティックセグメンテーションに明らかな頭部を用いたマルチタスク学習フレームワークであるEvidMTLを紹介する。
本研究では,不確実性を考慮したセマンティックサーフェスマッピングフレームワークであるEvidKimeraを提案する。
論文 参考訳(メタデータ) (2025-03-06T13:56:48Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty [6.986230616834552]
本稿では,新しい確率的マッピングアルゴリズムであるlatntBKIを導入し,不確かさを定量化するオープン語彙マッピングを実現する。
LatentBKIは、人気のMatterport3DとSemantic KITTIデータセット上で、同様の明示的なセマンティックマッピングとVLマッピングフレームワークに対して評価されている。
実世界の実験は、挑戦的な屋内環境に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-15T17:02:32Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Spatially Varying Label Smoothing: Capturing Uncertainty from Expert
Annotations [19.700271444378618]
画像分割のタスクは、解剖学的構造間の境界の正確な位置に関する曖昧さのために本質的に騒々しい。
我々は、この情報は専門家のアノテーションから余分なコストで抽出することができ、ソフト確率予測と基礎となる不確実性の間の校正を改善することができると論じる。
そこで我々は,アウトプット予測の校正に有効であることを示す基底真理ラベルの'blurred'バージョン上でネットワークをトレーニングするラベル平滑化(ls)を構築した。
論文 参考訳(メタデータ) (2021-04-12T19:35:51Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。