論文の概要: MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2009.08566v2
- Date: Fri, 16 Oct 2020 01:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:14:04.129061
- Title: MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering
- Title(参考訳): ミュータント:視覚質問応答における分散一般化のためのトレーニングパラダイム
- Authors: Tejas Gokhale and Pratyay Banerjee and Chitta Baral and Yezhou Yang
- Abstract要約: MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
- 参考スコア(独自算出の注目度): 58.30291671877342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While progress has been made on the visual question answering leaderboards,
models often utilize spurious correlations and priors in datasets under the
i.i.d. setting. As such, evaluation on out-of-distribution (OOD) test samples
has emerged as a proxy for generalization. In this paper, we present MUTANT, a
training paradigm that exposes the model to perceptually similar, yet
semantically distinct mutations of the input, to improve OOD generalization,
such as the VQA-CP challenge. Under this paradigm, models utilize a
consistency-constrained training objective to understand the effect of semantic
changes in input (question-image pair) on the output (answer). Unlike existing
methods on VQA-CP, MUTANT does not rely on the knowledge about the nature of
train and test answer distributions. MUTANT establishes a new state-of-the-art
accuracy on VQA-CP with a $10.57\%$ improvement. Our work opens up avenues for
the use of semantic input mutations for OOD generalization in question
answering.
- Abstract(参考訳): リーダーボードに答える視覚的な質問は進歩してきたが、モデルはしばしば、i.d.d.設定下のデータセットにおける刺激的な相関と先行を利用する。
このように、一般化のプロキシとして、out-of-distribution (ood) テストサンプルの評価が現れている。
本稿では,vqa-cp 課題のような ood 一般化を改善するために,入力の知覚的に類似するが意味的に異なる変異を提示する学習パラダイムである mut を提案する。
このパラダイムの下では、モデルは一貫性に制約された訓練目標を使用して、入力(クエクションとイメージのペア)が出力(回答)に与える影響を理解する。
VQA-CPの既存の手法とは異なり、MUTANTは列車と試験応答の分布に関する知識に依存していない。
MUTANTは、VQA-CPに新しい最先端の精度を10.57セントで確立している。
本研究は,質問応答におけるOOD一般化に意味的入力突然変異を用いるための道を開くものである。
関連論文リスト
- Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation [7.755718939237373]
従来の研究では、視覚的質問応答(VQA)モデルは、解答予測に言語優先に依存する傾向があることが指摘されている。
本稿では, VQAタスクにおける先行性ジレンマに対処するため, 知識蒸留を利用した新しい手法KDARを提案する。
提案手法は, VQA-CPv2out-of-distribution (OOD)ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-10T03:42:37Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Introspective Distillation for Robust Question Answering [70.18644911309468]
質問応答(QA)モデルは、例えば、視覚的QAに先行する言語や、読解における位置バイアスなど、データのバイアスを利用するためによく知られている。
近年の脱バイアス法は, 分配内(ID)性能のかなりの犠牲を伴い, 分配外(OOD)の一般化性を良好に達成している。
IntroD(Introspective Distillation)と呼ばれる新しい脱湿法を提案し,両者のQAを最大限に活用する。
論文 参考訳(メタデータ) (2021-11-01T15:30:15Z) - X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering [49.36818290978525]
既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。
本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
論文 参考訳(メタデータ) (2021-07-24T10:17:48Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - On the Value of Out-of-Distribution Testing: An Example of Goodhart's
Law [78.10523907729642]
VQA-CPは視覚的質問応答の標準OODベンチマークとなっている。
ほとんどの公表された手法は、OOD分割の構成に関する明示的な知識に依存している。
ランダムに回答を生成できる手法を含む、恥ずかしいほど単純な手法が、いくつかの質問タイプで芸術の状態を超越していることを示す。
論文 参考訳(メタデータ) (2020-05-19T06:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。