論文の概要: Variational Visual Question Answering for Uncertainty-Aware Selective Prediction
- arxiv url: http://arxiv.org/abs/2505.09591v2
- Date: Fri, 31 Oct 2025 02:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.815402
- Title: Variational Visual Question Answering for Uncertainty-Aware Selective Prediction
- Title(参考訳): 不確実性を考慮した選択予測のための変分視覚質問応答法
- Authors: Tobias Jan Wieczorek, Nathalie Daun, Mohammad Emtiyaz Khan, Marcus Rohrbach,
- Abstract要約: VQA(Visual Question Answering)において,変分ベイズの有効性と競争力を示す。
この手法は校正を改善し、VQAとビジュアル推論の選択的予測に有意な利得を与える。
さらに,予測のばらつきを考慮し,標準サンプル平均値よりも優れたリスク逆セレクタを提案する。
- 参考スコア(独自算出の注目度): 17.353372524615363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable progress in recent years, vision language models (VLMs) remain prone to overconfidence and hallucinations on tasks such as Visual Question Answering (VQA) and Visual Reasoning. Bayesian methods can potentially improve reliability by helping models selectively predict, that is, models respond only when they are sufficiently confident. Unfortunately, Bayesian methods are often assumed to be costly and ineffective for large models, and so far there exists little evidence to show otherwise, especially for multimodal applications. Here, we show the effectiveness and competitive edge of variational Bayes for selective prediction in VQA for the first time. We build on recent advances in variational methods for deep learning and propose an extension called "Variational VQA". This method improves calibration and yields significant gains for selective prediction on VQA and Visual Reasoning, particularly when the error tolerance is low ($\leq 1\%$). Often, just one posterior sample can yield more reliable answers than those obtained by models trained with AdamW. In addition, we propose a new risk-averse selector that outperforms standard sample averaging by considering the variance of predictions. Overall, we present compelling evidence that variational learning is a viable option to make large VLMs safer and more trustworthy.
- Abstract(参考訳): 近年の顕著な進歩にもかかわらず、視覚言語モデル(VLM)は、視覚的質問回答(VQA)や視覚的推論(Visual Reasoning)といったタスクに対する過信や幻覚の傾向が続いている。
ベイズ法は、モデルが十分に自信がある場合にのみ、モデルを選択的に予測するのを助けることで、信頼性を向上させることができる。
残念なことに、ベイズ法は大規模モデルでは費用がかかり非効率であると考えられており、今のところ、特にマルチモーダルな応用において、他の方法で示す証拠はほとんどない。
ここでは,VQAにおける選択的予測のための変分ベイズの有効性と競争力を示す。
深層学習のための変分手法の最近の進歩の上に構築し,「変分VQA」と呼ばれる拡張を提案する。
この手法はキャリブレーションを改善し、特にエラー耐性が低い場合(\leq 1\%$)、VQA と Visual Reasoning の選択的予測に対して大きな利得を得る。
多くの場合、AdamWで訓練されたモデルよりも信頼性の高い答えが得られるのは、たった1つの後部サンプルのみである。
さらに,予測のばらつきを考慮し,標準サンプル平均値よりも優れたリスク逆セレクタを提案する。
全体として、大きなVLMをより安全で信頼性の高いものにするために、変分学習が実行可能な選択肢であることを示す。
関連論文リスト
- Are Generative Models Underconfident? An Embarrassingly Simple Quality Estimation Approach [16.190746208019743]
品質推定(QE)は、真理参照が得られない場合のモデル出力の品質を推定する。
複数の実行可能な出力オプションが存在する場合にモデルの信頼性を高めるDMP(Dominant Mass Probability)を提案する。
DMPはピアソンの地中品質との相関を平均+0.208で改善する。
論文 参考訳(メタデータ) (2025-02-16T13:12:31Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Proximity-Informed Calibration for Deep Neural Networks [49.330703634912915]
ProCalは、近接性に基づいてサンプル信頼度を調整する理論的保証を持つプラグアンドプレイアルゴリズムである。
ProCalは、近接バイアスに対処し、バランスの取れた、長い、分布シフトの設定の校正を改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-07T16:40:51Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Second-Moment Loss: A Novel Regression Objective for Improved
Uncertainties [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。
これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。
この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文 参考訳(メタデータ) (2020-12-23T14:17:33Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。