論文の概要: Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut
Learning in VQA
- arxiv url: http://arxiv.org/abs/2210.04692v1
- Date: Mon, 10 Oct 2022 13:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:03:41.895447
- Title: Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut
Learning in VQA
- Title(参考訳): 言語優先は唯一のショートカットではない - VQAにおけるショートカット学習のベンチマーク
- Authors: Qingyi Si, Fandong Meng, Mingyu Zheng, Zheng Lin, Yuanxin Liu, Peng
Fu, Yanan Cao, Weiping Wang and Jie Zhou
- Abstract要約: VQAモデルは、意図されたソリューションではなく、データセットバイアスによって形成されるショートカットソリューションを学ぶ傾向がある。
複数のOODテストセットに異なる分布シフトを構築することで、様々な種類のショートカットを考慮に入れた新しいデータセットを提案する。
私たちのベンチマークでは、VQAでのショートカット学習をより厳密で包括的なテストベッドを提供しています。
- 参考スコア(独自算出の注目度): 53.45074798673808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) models are prone to learn the shortcut
solution formed by dataset biases rather than the intended solution. To
evaluate the VQA models' reasoning ability beyond shortcut learning, the VQA-CP
v2 dataset introduces a distribution shift between the training and test set
given a question type. In this way, the model cannot use the training set
shortcut (from question type to answer) to perform well on the test set.
However, VQA-CP v2 only considers one type of shortcut and thus still cannot
guarantee that the model relies on the intended solution rather than a solution
specific to this shortcut. To overcome this limitation, we propose a new
dataset that considers varying types of shortcuts by constructing different
distribution shifts in multiple OOD test sets. In addition, we overcome the
three troubling practices in the use of VQA-CP v2, e.g., selecting models using
OOD test sets, and further standardize OOD evaluation procedure. Our benchmark
provides a more rigorous and comprehensive testbed for shortcut learning in
VQA. We benchmark recent methods and find that methods specifically designed
for particular shortcuts fail to simultaneously generalize to our varying OOD
test sets. We also systematically study the varying shortcuts and provide
several valuable findings, which may promote the exploration of shortcut
learning in VQA.
- Abstract(参考訳): VQA(Visual Question Answering)モデルは、意図されたソリューションではなく、データセットバイアスによって形成されるショートカットソリューションを学ぶ傾向がある。
ショートカット学習を超えてVQAモデルの推論能力を評価するために、VQA-CP v2データセットは、質問タイプが与えられたトレーニングとテストセット間の分散シフトを導入する。
このように、モデルはトレーニングセットのショートカット(質問タイプから回答まで)をテストセットでうまく動作させることはできない。
しかしながら、VQA-CP v2は1種類のショートカットしか考慮していないため、モデルがこのショートカットに固有のソリューションではなく、意図したソリューションに依存することを保証できない。
この制限を克服するために,複数のoodテストセットで異なる分散シフトを構築することにより,様々な種類のショートカットを考慮した新しいデータセットを提案する。
さらに,OODテストセットを用いたモデル選択や,OOD評価手順の標準化など,VQA-CP v2の使用における3つの問題点を克服する。
私たちのベンチマークでは、VQAでのショートカット学習をより厳密で包括的なテストベッドを提供しています。
我々は最近の手法をベンチマークし、特定のショートカット用に特別に設計された手法は、我々の様々なOODテストセットに同時に一般化できないことを発見した。
また,様々なショートカットを体系的に研究し,VQAにおけるショートカット学習の探索を促進するいくつかの貴重な知見を提供する。
関連論文リスト
- Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Modularized Zero-shot VQA with Pre-trained Models [20.674979268279728]
本稿では,質問をサブ推論ステップに明示的に分解し,高度に解釈可能なモジュール化されたゼロショットネットワークを提案する。
ゼロショット設定下での2つのVQAベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-27T05:00:14Z) - Which Shortcut Solution Do Question Answering Models Prefer to Learn? [38.36299280464046]
質問応答(QA)モデルは、QAデータセットが意図したソリューションではなく、ショートカットソリューションを学ぶ傾向がある。
抽出および複数選択QAにおいて,回答位置と単語ラベル相関を利用したショートカットが優先的に学習されていることを示す。
我々は,ショートカットの学習性を利用して効果的なQA学習セットを構築することを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T13:57:59Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z) - Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering [42.120558318437475]
短い学習は、モデルがスプリアス統計規則を利用して正しい回答を生成するが、望ましい行動を展開しない場合に起こる。
近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T14:28:22Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文 参考訳(メタデータ) (2020-05-19T06:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。