論文の概要: Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2104.03149v1
- Date: Wed, 7 Apr 2021 14:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 16:39:57.193919
- Title: Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering
- Title(参考訳): 質問ベースのバイアスを超えて:視覚的質問応答におけるマルチモーダルショートカット学習の評価
- Authors: Corentin Dancette, Remi Cadene, Damien Teney, Matthieu Cord
- Abstract要約: 短い学習は、モデルがスプリアス統計規則を利用して正しい回答を生成するが、望ましい行動を展開しない場合に起こる。
近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
- 参考スコア(独自算出の注目度): 42.120558318437475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an evaluation methodology for visual question answering (VQA) to
better diagnose cases of shortcut learning. These cases happen when a model
exploits spurious statistical regularities to produce correct answers but does
not actually deploy the desired behavior. There is a need to identify possible
shortcuts in a dataset and assess their use before deploying a model in the
real world. The research community in VQA has focused exclusively on
question-based shortcuts, where a model might, for example, answer "What is the
color of the sky" with "blue" by relying mostly on the question-conditional
training prior and give little weight to visual evidence. We go a step further
and consider multimodal shortcuts that involve both questions and images. We
first identify potential shortcuts in the popular VQA v2 training set by mining
trivial predictive rules such as co-occurrences of words and visual elements.
We then create VQA-CE, a new evaluation set made of CounterExamples i.e.
questions where the mined rules lead to incorrect answers. We use this new
evaluation in a large-scale study of existing models. We demonstrate that even
state-of-the-art models perform poorly and that existing techniques to reduce
biases are largely ineffective in this context. Our findings suggest that past
work on question-based biases in VQA has only addressed one facet of a complex
issue. The code for our method is available at
https://github.com/cdancette/detect-shortcuts
- Abstract(参考訳): 近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
これらのケースは、モデルが散発的な統計正規性を利用して正しい答えを生み出すが、実際には望ましい振る舞いをデプロイしない場合に発生する。
データセット内のショートカットを識別し、実世界でモデルをデプロイする前にその使用を評価する必要がある。
VQAの研究コミュニティは、質問ベースのショートカットにのみ焦点を合わせており、例えば、モデルが「空の色は何か」と「青」に答える場合、主に質問条件のトレーニングに依存し、視覚的証拠にほとんど重みを与えない。
我々はさらに一歩進んで、質問と画像の両方を含むマルチモーダルショートカットを検討します。
まず,単語の共起や視覚要素などの自明な予測規則をマイニングすることで,VQA v2トレーニングの潜在的なショートカットを特定する。
次に、CounterExamplesの新たな評価セットであるVQA-CEを作成します。
どこで採掘されたルールが 間違った答えをもたらすのか
我々は,この新しい評価手法を既存モデルの大規模研究に活用する。
我々は、最先端モデルでさえも性能が悪く、バイアスを減らす既存の技術はこの文脈ではほとんど効果がないことを実証する。
以上の結果から,VQAにおける質問ベースのバイアスに関する過去の研究は,複雑な問題の1つにしか対応していないことが示唆された。
このメソッドのコードはhttps://github.com/cdancette/detect-shortcutsで入手できる。
関連論文リスト
- Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut
Learning in VQA [53.45074798673808]
VQAモデルは、意図されたソリューションではなく、データセットバイアスによって形成されるショートカットソリューションを学ぶ傾向がある。
複数のOODテストセットに異なる分布シフトを構築することで、様々な種類のショートカットを考慮に入れた新しいデータセットを提案する。
私たちのベンチマークでは、VQAでのショートカット学習をより厳密で包括的なテストベッドを提供しています。
論文 参考訳(メタデータ) (2022-10-10T13:39:08Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - Zero-shot Visual Question Answering using Knowledge Graph [19.142028501513366]
本稿では,知識グラフとマスクに基づく学習機構を用いたゼロショットVQAアルゴリズムを提案する。
実験の結果,Zero-shot VQAでは未知の解が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-12T12:17:18Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。