論文の概要: How Transferable are Reasoning Patterns in VQA?
- arxiv url: http://arxiv.org/abs/2104.03656v1
- Date: Thu, 8 Apr 2021 10:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:06:08.442451
- Title: How Transferable are Reasoning Patterns in VQA?
- Title(参考訳): VQAの共振パターンはどのように転送可能か?
- Authors: Corentin Kervadec, Theo Jaunet, Grigory Antipov, Moez Baccouche,
Romain Vuillemot and Christian Wolf
- Abstract要約: 視覚の不確実性は、視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。
私たちは視覚的なオラクルを訓練し、大規模な研究では、スプリアスデータセットバイアスを利用する傾向がはるかに低いという実験的証拠を提供します。
我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。
- 参考スコア(独自算出の注目度): 10.439369423744708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since its inception, Visual Question Answering (VQA) is notoriously known as
a task, where models are prone to exploit biases in datasets to find shortcuts
instead of performing high-level reasoning. Classical methods address this by
removing biases from training data, or adding branches to models to detect and
remove biases. In this paper, we argue that uncertainty in vision is a
dominating factor preventing the successful learning of reasoning in vision and
language problems. We train a visual oracle and in a large scale study provide
experimental evidence that it is much less prone to exploiting spurious dataset
biases compared to standard models. We propose to study the attention
mechanisms at work in the visual oracle and compare them with a SOTA
Transformer-based model. We provide an in-depth analysis and visualizations of
reasoning patterns obtained with an online visualization tool which we make
publicly available (https://reasoningpatterns.github.io). We exploit these
insights by transferring reasoning patterns from the oracle to a SOTA
Transformer-based VQA model taking standard noisy visual inputs via
fine-tuning. In experiments we report higher overall accuracy, as well as
accuracy on infrequent answers for each question type, which provides evidence
for improved generalization and a decrease of the dependency on dataset biases.
- Abstract(参考訳): 当初から、VQA(Visual Question Answering)はタスクとして知られており、モデルがデータセットのバイアスを利用してハイレベルな推論を行う代わりにショートカットを見つける傾向にある。
古典的な手法では、トレーニングデータからバイアスを取り除くか、バイアスを検出して取り除くためにモデルに分岐を追加することでこれに対処する。
本稿では,視覚における不確実性は,視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。
視覚託宣を訓練し、大規模な研究では、標準モデルに比べてデータセットバイアスの急激な利用がはるかに少ないという実験的な証拠を提供する。
我々は,ビジュアル・オラクルで作業中の注意機構を調査し,それをsomaトランスフォーマモデルと比較する。
オンラインビジュアライゼーションツールで得られた推論パターンの詳細な分析と可視化を提供する(https://reasoningpatterns.github.io)。
我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。
実験では,各質問タイプ毎の頻繁な回答の精度が向上し,一般化が向上し,データセットバイアスへの依存度が低下する証拠が得られた。
関連論文リスト
- Variation of Gender Biases in Visual Recognition Models Before and After
Finetuning [29.55318393877906]
本稿では,下流タスクにおける大規模視覚認識モデルの微調整前後のバイアスの変化を計測するフレームワークを提案する。
ImageNet-21kのようなデータセットでトレーニングされた教師付きモデルは、事前学習されたバイアスを保持する傾向にある。
また、大規模データセットに微調整されたモデルでは、新しいバイアス付きアソシエーションを導入する可能性が高くなることもわかりました。
論文 参考訳(メタデータ) (2023-03-14T03:42:47Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Supervising the Transfer of Reasoning Patterns in VQA [9.834885796317971]
VQA(Visual Question Anwering)は、推論を行うのではなく、データセットのバイアスを活用することで有名である。
本稿では,損失関数の正規化項に基づく知識伝達手法を提案する。
また,本手法の有効性をGQAデータセット上で実験的に検証し,BERTライクな自己教師付き事前学習の補完効果を示す。
論文 参考訳(メタデータ) (2021-06-10T08:58:43Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - VisQA: X-raying Vision and Language Reasoning in Transformers [10.439369423744708]
最近の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生み出す傾向があることが示されている。
VisQAは、この推論とバイアス搾取の問題を探求するビジュアル分析ツールです。
論文 参考訳(メタデータ) (2021-04-02T08:08:25Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To? [0.0]
ドメイン内精度を総合的に測定する標準評価基準は誤解を招くものであると論じる。
これらの問題を克服するためのGQA-OODベンチマークを提案する。
論文 参考訳(メタデータ) (2020-06-09T08:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。