論文の概要: What Gives the Answer Away? Question Answering Bias Analysis on Video QA
Datasets
- arxiv url: http://arxiv.org/abs/2007.03626v1
- Date: Tue, 7 Jul 2020 17:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:13:55.481163
- Title: What Gives the Answer Away? Question Answering Bias Analysis on Video QA
Datasets
- Title(参考訳): 何の答えだ?
ビデオQAデータセットにおける質問応答バイアス解析
- Authors: Jianing Yang, Yuying Zhu, Yongxin Wang, Ruitao Yi, Amir Zadeh,
Louis-Philippe Morency
- Abstract要約: ビデオQAデータセットの回答バイアスは、QAアーティファクトに過度に適合するように、マルチモーダルモデルを誤解させる可能性がある。
私たちの研究では、アノテータや質問の種類からバイアスが生まれます。
また,ビデオQAデータセットのQAバイアスを低減できることを示す。
- 参考スコア(独自算出の注目度): 40.64071905569975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering biases in video QA datasets can mislead multimodal model
to overfit to QA artifacts and jeopardize the model's ability to generalize.
Understanding how strong these QA biases are and where they come from helps the
community measure progress more accurately and provide researchers insights to
debug their models. In this paper, we analyze QA biases in popular video
question answering datasets and discover pretrained language models can answer
37-48% questions correctly without using any multimodal context information,
far exceeding the 20% random guess baseline for 5-choose-1 multiple-choice
questions. Our ablation study shows biases can come from annotators and type of
questions. Specifically, annotators that have been seen during training are
better predicted by the model and reasoning, abstract questions incur more
biases than factual, direct questions. We also show empirically that using
annotator-non-overlapping train-test splits can reduce QA biases for video QA
datasets.
- Abstract(参考訳): ビデオQAデータセットの回答バイアスは、QAアーティファクトに過度に適合するようにマルチモーダルモデルを誤解させ、モデルを一般化する能力を危険にさらす可能性がある。
これらのQAバイアスがどれほど強く、どこから来たのかを理解することは、コミュニティが進捗をより正確に測定し、研究者にモデルをデバッグするための洞察を与えるのに役立つ。
本稿では,一般的なビデオ質問応答データセットにおけるqaバイアスを分析し,事前学習された言語モデルが,マルチモーダルな文脈情報を用いずに,37~48%の質問に正しく回答できることを示す。
アブレーション研究によると、バイアスは注釈や質問のタイプから生じる。
特に、トレーニング中に見られた注釈は、モデルと推論によって予測され、抽象的な質問は、現実的な直接的な質問よりも多くのバイアスを引き起こす。
また,ビデオQAデータセットのQAバイアスを低減できることを示す。
関連論文リスト
- Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset [26.782937852417454]
複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:17:09Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。