論文の概要: BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models
- arxiv url: http://arxiv.org/abs/2301.12032v1
- Date: Sat, 28 Jan 2023 00:03:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:31:09.517334
- Title: BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models
- Title(参考訳): BinaryVQA:VQAモデルのアウト・オブ・ディストリビューション一般化を評価するためのVersatile Test Set
- Authors: Ali Borji
- Abstract要約: 我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
- 参考スコア(独自算出の注目度): 47.64219291655723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new test set for visual question answering (VQA) called
BinaryVQA to push the limits of VQA models. Our dataset includes 7,800
questions across 1,024 images and covers a wide variety of objects, topics, and
concepts. For easy model evaluation, we only consider binary questions.
Questions and answers are formulated and verified carefully and manually.
Around 63% of the questions have positive answers. The median number of
questions per image and question length are 7 and 5, respectively. The state of
the art OFA model achieves 75% accuracy on BinaryVQA dataset, which is
significantly lower than its performance on the VQA v2 test-dev dataset
(94.7%). We also analyze the model behavior along several dimensions including:
a) performance over different categories such as text, counting and gaze
direction, b) model interpretability, c) the effect of question length on
accuracy, d) bias of models towards positive answers and introduction of a new
score called the ShuffleAcc, and e) sensitivity to spelling and grammar errors.
Our investigation demonstrates the difficulty of our dataset and shows that it
can challenge VQA models for next few years. Data and code are publicly
available at: DATA and CODE.
- Abstract(参考訳): 我々は,VQAモデルの限界を押し上げるために,BinaryVQAと呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
モデル評価を容易にするため、二項問題のみを考える。
質問と回答は慎重に手動で定式化され、検証される。
質問の約63%は肯定的な回答を持っている。
画像ごとの質問の中央値と質問の長さはそれぞれ7と5である。
最先端のOFAモデルは、BinaryVQAデータセット上で75%の精度を実現しており、VQA v2 test-devデータセット(94.7%)のパフォーマンスよりも大幅に低い。
また、いくつかの次元に沿ってモデル行動を分析する。
a) テキスト,計数及び視線方向などの異なるカテゴリに対するパフォーマンス
b) モデル解釈可能性
c) 質問の長さが精度に及ぼす影響
d) 正の回答に対するモデルのバイアス及びShuffleAccと呼ばれる新しいスコアの導入
e) 綴り及び文法の誤りに対する感受性。
我々の調査はデータセットの難しさを実証し、今後数年間VQAモデルに挑戦できることを示す。
データとコードは: DataとCODEで公開されています。
関連論文リスト
- Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。