論文の概要: Variational Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.09591v1
- Date: Wed, 14 May 2025 17:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.550844
- Title: Variational Visual Question Answering
- Title(参考訳): 変分視覚質問応答
- Authors: Tobias Jan Wieczorek, Nathalie Daun, Mohammad Emtiyaz Khan, Marcus Rohrbach,
- Abstract要約: マルチモーダルモデルの信頼性を高めるための変分VQA手法を提案する。
モデルパラメータに後続分布を与えるIVONアルゴリズムを提案する。
我々はAdamWの精度を犠牲にすることなくキャリブレーションと禁忌を改善する。
- 参考スコア(独自算出の注目度): 28.075269845580056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable progress in multimodal models for Visual Question Answering (VQA), there remain major reliability concerns because the models can often be overconfident and miscalibrated, especially in out-of-distribution (OOD) settings. Plenty has been done to address such issues for unimodal models, but little work exists for multimodal cases. Here, we address unreliability in multimodal models by proposing a Variational VQA approach. Specifically, instead of fine-tuning vision-language models by using AdamW, we employ a recently proposed variational algorithm called IVON, which yields a posterior distribution over model parameters. Through extensive experiments, we show that our approach improves calibration and abstentions without sacrificing the accuracy of AdamW. For instance, compared to AdamW fine-tuning, we reduce Expected Calibration Error by more than 50% compared to the AdamW baseline and raise Coverage by 4% vs. SOTA (for a fixed risk of 1%). In the presence of distribution shifts, the performance gain is even higher, achieving 8% Coverage (@ 1% risk) improvement vs. SOTA when 50% of test cases are OOD. Overall, we present variational learning as a viable option to enhance the reliability of multimodal models.
- Abstract(参考訳): Visual Question Answering (VQA) のマルチモーダルモデルの顕著な進歩にもかかわらず、特にアウト・オブ・ディストリビューション(OOD)設定において、モデルが過度に信頼され、誤解されることがあるため、信頼性に関する大きな懸念が残っている。
ユニモーダルモデルに対するそのような問題に対処するために多くの研究がなされてきたが、マルチモーダルケースに対してはほとんど研究が行われていない。
ここでは、変分VQAアプローチを提案することで、マルチモーダルモデルにおける信頼性の欠如に対処する。
具体的には、AdamWを用いて微調整された視覚言語モデルの代わりに、最近提案されたIVONアルゴリズムを用いて、モデルパラメータの後方分布を生成する。
実験により,AdamWの精度を犠牲にすることなくキャリブレーションと禁忌を改善した。
例えば、AdamWの微調整と比較して、AdamWのベースラインと比較して予測校正誤差を50%以上削減し、Cooverageを4%、SOTAを4%(固定リスク1%)引き上げます。
分散シフトの存在下では、パフォーマンスがさらに向上し、テストケースの50%がOODである場合、8%のカバレッジ(“1%のリスク”)の改善が達成されます。
全体として、マルチモーダルモデルの信頼性を高めるために、変分学習を実行可能な選択肢として提示する。
関連論文リスト
- Are Generative Models Underconfident? An Embarrassingly Simple Quality Estimation Approach [16.190746208019743]
品質推定(QE)は、真理参照が得られない場合のモデル出力の品質を推定する。
複数の実行可能な出力オプションが存在する場合にモデルの信頼性を高めるDMP(Dominant Mass Probability)を提案する。
DMPはピアソンの地中品質との相関を平均+0.208で改善する。
論文 参考訳(メタデータ) (2025-02-16T13:12:31Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Proximity-Informed Calibration for Deep Neural Networks [49.330703634912915]
ProCalは、近接性に基づいてサンプル信頼度を調整する理論的保証を持つプラグアンドプレイアルゴリズムである。
ProCalは、近接バイアスに対処し、バランスの取れた、長い、分布シフトの設定の校正を改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-07T16:40:51Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Second-Moment Loss: A Novel Regression Objective for Improved
Uncertainties [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。
これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。
この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文 参考訳(メタデータ) (2020-12-23T14:17:33Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。