論文の概要: Rethinking Data Augmentation for Robust Visual Question Answering
- arxiv url: http://arxiv.org/abs/2207.08739v1
- Date: Mon, 18 Jul 2022 16:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 14:08:18.401669
- Title: Rethinking Data Augmentation for Robust Visual Question Answering
- Title(参考訳): ロバストな視覚的質問応答のためのデータ拡張の再考
- Authors: Long Chen and Yuhang Zheng and Jun Xiao
- Abstract要約: 我々は、KDDAugと呼ばれるVQAのための知識蒸留に基づく新しいデータ拡張を提案する。
まず、任意の質問タイプに容易に適用できる合理的な画像探索ペアの要件を緩和する。
そこで我々は,すべての合成画像探索対に対して疑似回答を生成するために,知識蒸留に基づく回答代入を設計する。
- 参考スコア(独自算出の注目度): 12.097050140084942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Augmentation (DA) -- generating extra training samples beyond original
training set -- has been widely-used in today's unbiased VQA models to mitigate
the language biases. Current mainstream DA strategies are synthetic-based
methods, which synthesize new samples by either editing some visual
regions/words, or re-generating them from scratch. However, these synthetic
samples are always unnatural and error-prone. To avoid this issue, a recent DA
work composes new augmented samples by randomly pairing pristine images and
other human-written questions. Unfortunately, to guarantee augmented samples
have reasonable ground-truth answers, they manually design a set of heuristic
rules for several question types, which extremely limits its generalization
abilities. To this end, we propose a new Knowledge Distillation based Data
Augmentation for VQA, dubbed KDDAug. Specifically, we first relax the
requirements of reasonable image-question pairs, which can be easily applied to
any question types. Then, we design a knowledge distillation (KD) based answer
assignment to generate pseudo answers for all composed image-question pairs,
which are robust to both in-domain and out-of-distribution settings. Since
KDDAug is a model-agnostic DA strategy, it can be seamlessly incorporated into
any VQA architectures. Extensive ablation studies on multiple backbones and
benchmarks have demonstrated the effectiveness and generalization abilities of
KDDAug.
- Abstract(参考訳): Data Augmentation (DA) – 元のトレーニングセットを超えて追加のトレーニングサンプルを生成する – は、言語のバイアスを軽減するために、今日の偏見のないVQAモデルで広く使用されている。
現在主流のda戦略は合成ベースの手法であり、視覚領域/単語を編集するか、スクラッチから再生成することで新しいサンプルを合成する。
しかし、これらの合成サンプルは常に不自然でエラーを起こしやすい。
この問題を回避するため、最近のdaの作業では、無作為な画像と他の人間による質問を組み合わせることで、新たな拡張サンプルを作成している。
残念なことに、強化されたサンプルが妥当な地味な答えを持つことを保証するため、いくつかの質問タイプに対するヒューリスティックなルールを手動で設計し、その一般化能力は極めて制限される。
そこで本研究では,KDDAugと呼ばれるVQAのための知識蒸留に基づくデータ拡張を提案する。
具体的には、まず、任意の質問タイプに容易に適用できる合理的な画像探索ペアの要件を緩和する。
そこで我々は,知識蒸留(KD)に基づく解答代入を設計し,構成された画像対に対して疑似解答を生成する。
KDDAugはモデルに依存しないDA戦略であるため、任意のVQAアーキテクチャにシームレスに組み込むことができる。
複数のバックボーンとベンチマークに関する広範なアブレーション研究は、kddaugの有効性と一般化能力を示している。
関連論文リスト
- Unsupervised multiple choices question answering via universal corpus [27.78825771434918]
本稿では,MCQAデータを生成するための新しいフレームワークを提案する。
我々は、名前付きエンティティ(NE)と知識グラフの両方を活用して、完全な合成サンプルを形成するための可視な乱れを発見する。
論文 参考訳(メタデータ) (2024-02-27T09:10:28Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering [42.120558318437475]
短い学習は、モデルがスプリアス統計規則を利用して正しい回答を生成するが、望ましい行動を展開しない場合に起こる。
近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T14:28:22Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Answering Ambiguous Questions through Generative Evidence Fusion and
Round-Trip Prediction [46.38201136570501]
本稿では,複数の通路からの証拠を集約し,一つの回答や質問対の集合を適応的に予測するモデルを提案する。
我々のモデルはRefuelと呼ばれ、AmbigQAデータセット上で新しい最先端のパフォーマンスを実現し、NQ-OpenおよびTriviaQA上での競合性能を示す。
論文 参考訳(メタデータ) (2020-11-26T05:48:55Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Generating Rationales in Visual Question Answering [28.45552957339557]
視覚質問応答(VQA)のための新しいタスク分岐生成法を提案する。
VCR(Visual Commonsense Rea-soning)タスクのデータを、視覚的な質問や回答とともに、基礎的真実を含むものとして使用しています。
我々は、VQAにおける解答の予測と合理性の生成という2つのタスクで、GPT-2でVLBERTをエンドツーエンドで訓練する。
論文 参考訳(メタデータ) (2020-04-04T22:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。