論文の概要: Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA
Models
- arxiv url: http://arxiv.org/abs/2106.00245v1
- Date: Tue, 1 Jun 2021 05:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:39:02.114496
- Title: Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA
Models
- Title(参考訳): 逆VQA:VQAモデルのロバスト性を評価するための新しいベンチマーク
- Authors: Linjie Li, Jie Lei, Zhe Gan, Jingjing Liu
- Abstract要約: 本稿では,新たな大規模VQAベンチマークであるAdversarial VQAを紹介する。
非熟練アノテータは比較的容易にSOTA VQAモデルに攻撃できることがわかった。
大規模な事前訓練モデルと敵のトレーニング方法はどちらも、標準的なVQA v2データセットで達成できるものよりもはるかに低いパフォーマンスしか達成できない。
- 参考スコア(独自算出の注目度): 45.777326168922635
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With large-scale pre-training, the past two years have witnessed significant
performance boost on the Visual Question Answering (VQA) task. Though rapid
progresses have been made, it remains unclear whether these state-of-the-art
(SOTA) VQA models are robust when encountering test examples in the wild. To
study this, we introduce Adversarial VQA, a new large-scale VQA benchmark,
collected iteratively via an adversarial human-and-model-in-the-loop procedure.
Through this new benchmark, we present several interesting findings. (i)
Surprisingly, during dataset collection, we find that non-expert annotators can
successfully attack SOTA VQA models with relative ease. (ii) We test a variety
of SOTA VQA models on our new dataset to highlight their fragility, and find
that both large-scale pre-trained models and adversarial training methods can
only achieve far lower performance than what they can achieve on the standard
VQA v2 dataset. (iii) When considered as data augmentation, our dataset can be
used to improve the performance on other robust VQA benchmarks. (iv) We present
a detailed analysis of the dataset, providing valuable insights on the
challenges it brings to the community. We hope Adversarial VQA can serve as a
valuable benchmark that will be used by future work to test the robustness of
its developed VQA models. Our dataset is publicly available at
https://adversarialvqa. github.io/.
- Abstract(参考訳): 大規模な事前トレーニングでは、過去2年間、vqa(visual question answering)タスクのパフォーマンスが大幅に向上している。
急速な進展はあったが、これらの最先端(SOTA)のVQAモデルが野生での試験例に遭遇する際に堅牢かどうかは不明である。
そこで本研究では,新たな大規模VQAベンチマークであるAdversarial VQAを紹介する。
この新しいベンチマークでは,いくつかの興味深い結果が得られた。
意外なことに,データセット収集の過程で,非エキスパートアノテータが比較的容易にSOTA VQAモデルを攻撃できることがわかった。
(II)新しいデータセット上で様々なSOTA VQAモデルをテストして、その脆弱性を強調し、大規模な事前学習モデルと敵のトレーニング手法の両方が、標準のVQA v2データセットよりもはるかに低いパフォーマンスしか達成できないことを発見した。
(iii)データ拡張とみなす場合、我々のデータセットは、他の堅牢なVQAベンチマークのパフォーマンス向上に利用できます。
(iv)我々は,データセットの詳細な分析を行い,コミュニティにもたらした課題に関する貴重な洞察を提供する。
我々は、Adversarial VQAが、開発したVQAモデルの堅牢性をテストするために将来の作業で使用される貴重なベンチマークとして機能することを願っている。
私たちのデータセットはhttps://adversarialvqa.comで公開されています。
github.io/
関連論文リスト
- Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Generative Visual Question Answering [0.0]
本稿では、時間的一般化の成果を得られる高度な視覚質問回答(VQA)モデルを作成するための実行可能なアプローチについて論じる。
我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。
パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。
論文 参考訳(メタデータ) (2023-07-18T05:30:23Z) - Multilingual Augmentation for Robust Visual Question Answering in Remote
Sensing Images [19.99615698375829]
多様な質問テンプレートや単語に対して頑健なRSVQAモデルをトレーニングするための対照的な学習戦略を提案する。
実験の結果,提案手法はRSVQAモデルのロバスト性向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-04-07T21:06:58Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。