論文の概要: HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.22171v1
- Date: Sat, 25 Oct 2025 05:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.900074
- Title: HARMONY: Hidden Activation Representations and Model Output-Aware Uncertainty Estimation for Vision-Language Models
- Title(参考訳): HARMONY:視覚言語モデルにおける隠れ活性化表現とモデル出力を考慮した不確実性推定
- Authors: Erum Mushtaq, Zalan Fabian, Yavuz Faruk Bakman, Anil Ramakrishna, Mahdi Soltanolkotabi, Salman Avestimehr,
- Abstract要約: 不確実性推定は、モデル出力の信頼性の定量化において中心的な役割を果たす。
既存の確率に基づくUEアプローチの多くは、単一不確実性スコアにトークン確率を集約する出力確率分布に依存している。
本稿では,モデルアクティベーションにおける融合マルチモーダル情報とVLMの出力分布を協調的に活用する新しいUEフレームワークHARMONYを提案する。
- 参考スコア(独自算出の注目度): 42.91752946934796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing deployment of Vision-Language Models (VLMs) in high-stakes applications such as autonomous driving and assistive technologies for visually impaired individuals necessitates reliable mechanisms to assess the trustworthiness of their generation. Uncertainty Estimation (UE) plays a central role in quantifying the reliability of model outputs and reducing unsafe generations via selective prediction. In this regard, most existing probability-based UE approaches rely on output probability distributions, aggregating token probabilities into a single uncertainty score using predefined functions such as length-normalization. Another line of research leverages model hidden representations and trains MLP-based models to predict uncertainty. However, these methods often fail to capture the complex multimodal relationships between semantic and textual tokens and struggle to identify biased probabilities often influenced by language priors. Motivated by these observations, we propose a novel UE framework, HARMONY, that jointly leverages fused multimodal information in model activations and the output distribution of the VLM to determine the reliability of responses. The key hypothesis of our work is that both the model's internal belief in its visual understanding, captured by its hidden representations, and the produced token probabilities carry valuable reliability signals that can be jointly leveraged to improve UE performance, surpassing approaches that rely on only one of these components. Experimental results on three open-ended VQA benchmarks, A-OKVQA, VizWiz, and PathVQA, and three state-of-the-art VLMs, LLaVa-7b, LLaVA-13b and InstructBLIP demonstrate that our method consistently performs on par with or better than existing approaches, achieving up to 4\% improvement in AUROC, and 6\% in PRR, establishing new state of the art in uncertainty estimation for VLMs.
- Abstract(参考訳): 視覚障害者のための自律運転や補助技術といった高度なアプリケーションへのビジョン・ランゲージ・モデル(VLM)の展開は、世代の信頼性を評価するための信頼性の高いメカニズムを必要としている。
不確実性推定(UE)は、モデル出力の信頼性を定量化し、選択予測によって安全でない世代を減らす上で中心的な役割を果たす。
この点において、既存の確率ベースUEアプローチのほとんどは、長さ正規化のような事前定義された関数を用いてトークン確率を単一の不確実性スコアに集約する出力確率分布に依存している。
別の研究の行はモデル隠れ表現を活用し、不確実性を予測するためにMLPベースのモデルを訓練する。
しかし、これらの手法は意味的トークンとテキストトークンの間の複雑なマルチモーダルな関係を捉えることができず、言語の先行にしばしば影響されるバイアスのある確率を特定するのに苦労する。
これらの観測により,モデルアクティベーションにおける融合マルチモーダル情報とVLMの出力分布を併用して応答の信頼性を判定する新しいUEフレームワークHARMONYを提案する。
我々の研究の鍵となる仮説は、モデルの内部的な理解は、その隠れ表現によって捉えられたものであり、生成されたトークン確率は、UEのパフォーマンスを改善するために共同で活用できる貴重な信頼性信号を持ち、これらのコンポーネントの1つにのみ依存するアプローチを超越している、というものである。
A-OKVQA, VizWiz, PathVQAの3つのオープンエンドVQAベンチマークと, 3つの最先端VLM, LLaVa-7b, LLaVA-13b, InstructBLIPによる実験結果から,本手法は既存のアプローチと同等以上の性能を示し,AUROCの最大4倍,PRRの6倍の精度向上を実現し,VLMの新たな不確実性評価法を確立した。
関連論文リスト
- Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。
本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。
3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文 参考訳(メタデータ) (2025-08-01T12:58:34Z) - Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Label-Confidence-Aware Uncertainty Estimation in Natural Language Generation [8.635811152610604]
不確実性定量化(UQ)は、AIシステムの安全性と堅牢性を保証するために不可欠である。
サンプルとラベルソース間の分岐に基づくラベル信頼度(LCA)の不確実性評価を提案する。
論文 参考訳(メタデータ) (2024-12-10T07:35:23Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - A Survey on Uncertainty Toolkits for Deep Learning [3.113304966059062]
ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。
モデリングおよび評価能力に関する11のツールキットについて検討する。
最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
論文 参考訳(メタデータ) (2022-05-02T17:23:06Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。