論文の概要: Improving Selective Visual Question Answering by Learning from Your
Peers
- arxiv url: http://arxiv.org/abs/2306.08751v1
- Date: Wed, 14 Jun 2023 21:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:10:56.263492
- Title: Improving Selective Visual Question Answering by Learning from Your
Peers
- Title(参考訳): 学習者からの学習による視覚的質問応答の改善
- Authors: Corentin Dancette, Spencer Whitehead, Rishabh Maheshwary, Ramakrishna
Vedantam, Stefan Scherer, Xinlei Chen, Matthieu Cord, Marcus Rohrbach
- Abstract要約: VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
- 参考スコア(独自算出の注目度): 74.20167944693424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in Visual Question Answering (VQA), the ability of models to
assess their own correctness remains underexplored. Recent work has shown that
VQA models, out-of-the-box, can have difficulties abstaining from answering
when they are wrong. The option to abstain, also called Selective Prediction,
is highly relevant when deploying systems to users who must trust the system's
output (e.g., VQA assistants for users with visual impairments). For such
scenarios, abstention can be especially important as users may provide
out-of-distribution (OOD) or adversarial inputs that make incorrect answers
more likely. In this work, we explore Selective VQA in both in-distribution
(ID) and OOD scenarios, where models are presented with mixtures of ID and OOD
data. The goal is to maximize the number of questions answered while minimizing
the risk of error on those questions. We propose a simple yet effective
Learning from Your Peers (LYP) approach for training multimodal selection
functions for making abstention decisions. Our approach uses predictions from
models trained on distinct subsets of the training data as targets for
optimizing a Selective VQA model. It does not require additional manual labels
or held-out data and provides a signal for identifying examples that are
easy/difficult to generalize to. In our extensive evaluations, we show this
benefits a number of models across different architectures and scales. Overall,
for ID, we reach 32.92% in the selective prediction metric coverage at 1% risk
of error (C@1%) which doubles the previous best coverage of 15.79% on this
task. For mixed ID/OOD, using models' softmax confidences for abstention
decisions performs very poorly, answering <5% of questions at 1% risk of error
even when faced with only 10% OOD examples, but a learned selection function
with LYP can increase that to 25.38% C@1%.
- Abstract(参考訳): VQA(Visual Question Answering)の進歩にもかかわらず、モデルが自身の正確性を評価する能力はいまだ探索されていない。
最近の研究によると、VQAモデル、即席のモデルは、間違っているときの回答を控えることが困難であることが示されている。
Selective Prediction(選択予測)とも呼ばれる禁忌オプションは、システムのアウトプットを信頼しなければならないユーザ(視覚障害のあるユーザのためのVQAアシスタントなど)にシステムを展開する場合に非常に有用である。
このようなシナリオでは、ユーザがアウト・オブ・ディストリビューション(OOD)や、誤った回答の可能性がより高い敵のインプットを提供するため、禁忌は特に重要である。
そこで本研究では,モデルにIDとOODデータを混合して提示する,分散内(ID)およびOODシナリオのSelective VQAについて検討する。
目標は、これらの質問に対する誤りのリスクを最小限に抑えながら、回答する質問の数を最大化することである。
本稿では,マルチモーダル選択関数を学習し,留意決定を行うためのシンプルなLearning from Your Peers (LYP)アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
追加のマニュアルラベルや保留データを必要とせず、簡単に一般化できる例を特定するための信号を提供する。
広範な評価では、さまざまなアーキテクチャやスケールにわたる多くのモデルにこのメリットがあります。
全体として、IDについては、選択的な予測基準のカバレッジで32.92%に達し、1%のエラーリスク(C@1%)で、このタスクで過去最高のカバレッジは15.79%だった。
混合ID/OODでは、モデルのソフトマックスの信頼度を用いて、10%のOOD例に直面しても1%のエラーリスクで回答するが、LYPで学習した選択関数は25.38% C@1%に増加する。
関連論文リスト
- Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。