論文の概要: Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly
- arxiv url: http://arxiv.org/abs/2204.13631v1
- Date: Thu, 28 Apr 2022 16:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 13:50:55.670909
- Title: Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly
- Title(参考訳): 信頼性の高い視覚的質問に対する答え:答えは正しくない
- Authors: Spencer Whitehead, Suzanne Petryk, Vedaad Shakib, Joseph Gonzalez,
Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
- Abstract要約: 我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
- 参考スコア(独自算出の注目度): 100.60560477391732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has advanced dramatically, narrowing the accuracy gap to
humans in multimodal tasks like visual question answering (VQA). However, while
humans can say "I don't know" when they are uncertain (i.e., abstain from
answering a question), such ability has been largely neglected in multimodal
research, despite the importance of this problem to the usage of VQA in real
settings. In this work, we promote a problem formulation for reliable VQA,
where we prefer abstention over providing an incorrect answer. We first enable
abstention capabilities for several VQA models, and analyze both their
coverage, the portion of questions answered, and risk, the error on that
portion. For that we explore several abstention approaches. We find that
although the best performing models achieve over 71% accuracy on the VQA v2
dataset, introducing the option to abstain by directly using a model's softmax
scores limits them to answering less than 8% of the questions to achieve a low
risk of error (i.e., 1%). This motivates us to utilize a multimodal selection
function to directly estimate the correctness of the predicted answers, which
we show can triple the coverage from, for example, 5.0% to 16.7% at 1% risk.
While it is important to analyze both coverage and risk, these metrics have a
trade-off which makes comparing VQA models challenging. To address this, we
also propose an Effective Reliability metric for VQA that places a larger cost
on incorrect answers compared to abstentions. This new problem formulation,
metric, and analysis for VQA provide the groundwork for building effective and
reliable VQA models that have the self-awareness to abstain if and only if they
don't know the answer.
- Abstract(参考訳): 機械学習は劇的に進歩し、視覚的質問応答(VQA)のようなマルチモーダルタスクにおいて、人間の精度ギャップを狭めている。
しかしながら、人間は不確実な時に「私は知らない」と言うことができるが(つまり、質問への答えを控える)、そのような能力は実環境でのVQAの使用に対するこの問題の重要性にもかかわらず、マルチモーダルな研究では無視されている。
本研究では,信頼度の高いVQAに対する問題定式化を促進する。
まず、いくつかのVQAモデルに対する禁忌機能を有効にし、その範囲、回答した部分、そしてその部分のエラーを分析します。
そのため、いくつかの回避策を検討します。
最高のパフォーマンスモデルはVQA v2データセットで71%以上の精度を達成するが、モデルのソフトマックススコアを直接使用することで、停止するオプションを導入することで、低いエラーリスク(すなわち1%)を達成するために8%未満の質問に答えることに制限がある。
これは、予測された回答の正しさを直接推定するためにマルチモーダル選択関数を利用する動機であり、例えば、1%のリスクで5.0%から16.7%のカバレッジを3倍にすることができる。
カバレッジとリスクの両方を分析することは重要だが、これらのメトリクスにはトレードオフがあり、VQAモデルの比較は困難である。
そこで本研究では,VQAに対する有効信頼性指標を提案する。
VQAのこの新しい問題定式化、メートル法、分析は、その答えを知らない場合にのみ、自己認識することのできる効果的で信頼性の高いVQAモデルを構築するための基盤を提供する。
関連論文リスト
- Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。