論文の概要: Semantic Equivalent Adversarial Data Augmentation for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2007.09592v1
- Date: Sun, 19 Jul 2020 05:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:26:27.603702
- Title: Semantic Equivalent Adversarial Data Augmentation for Visual Question
Answering
- Title(参考訳): 視覚的質問応答のための意味等価逆データ拡張
- Authors: Ruixue Tang, Chao Ma, Wei Emma Zhang, Qi Wu, Xiaokang Yang
- Abstract要約: ディープニューラルネットワーク(DNN)の急速な発展により、VQA(Visual Question Answering)は大きな成功を収めた。
本稿では,画像と質問を直接操作する代わりに,画像と質問の両方に対して生成した逆例を拡張データとして使用する。
VQAv2の全体的な性能は向上するばかりでなく、敵攻撃に効果的に対応できることがわかりました。
- 参考スコア(独自算出の注目度): 65.54116210742511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) has achieved great success thanks to the fast
development of deep neural networks (DNN). On the other hand, the data
augmentation, as one of the major tricks for DNN, has been widely used in many
computer vision tasks. However, there are few works studying the data
augmentation problem for VQA and none of the existing image based augmentation
schemes (such as rotation and flipping) can be directly applied to VQA due to
its semantic structure -- an $\langle image, question, answer\rangle$ triplet
needs to be maintained correctly. For example, a direction related
Question-Answer (QA) pair may not be true if the associated image is rotated or
flipped. In this paper, instead of directly manipulating images and questions,
we use generated adversarial examples for both images and questions as the
augmented data. The augmented examples do not change the visual properties
presented in the image as well as the \textbf{semantic} meaning of the
question, the correctness of the $\langle image, question, answer\rangle$ is
thus still maintained. We then use adversarial learning to train a classic VQA
model (BUTD) with our augmented data. We find that we not only improve the
overall performance on VQAv2, but also can withstand adversarial attack
effectively, compared to the baseline model. The source code is available at
https://github.com/zaynmi/seada-vqa.
- Abstract(参考訳): VQA(Visual Question Answering)は、ディープニューラルネットワーク(DNN)の急速な開発によって大きな成功を収めている。
一方、データ拡張はDNNの主要なトリックの一つであり、多くのコンピュータビジョンタスクで広く使われている。
しかしながら、VQAのデータ拡張問題を研究する研究はほとんどなく、既存の画像ベースの拡張スキーム(回転やフリップなど)は、その意味構造($\langle image, question, answer\rangle$ triplet)のためにVQAに直接適用できない。
例えば、方向関連質問応答(QA)ペアは、関連する画像を回転させたり、反転させたりしても真実ではないかもしれない。
本稿では,画像と質問を直接操作する代わりに,画像と質問の両方に対して生成した逆例を拡張データとして使用する。
拡張された例では、画像に示される視覚的な特性や、問題の \textbf{semantic} の意味は変更されず、$\langle 画像の正確性、 question、 answer\rangle$ が維持される。
次に、逆学習を用いて、従来のVQAモデル(BUTD)を拡張データでトレーニングする。
我々はVQAv2の全体的な性能を向上するだけでなく、ベースラインモデルと比較して敵攻撃に効果的に対応できることを見出した。
ソースコードはhttps://github.com/zaynmi/seada-vqaで入手できる。
関連論文リスト
- VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in
Visual Question Answering [71.6781118080461]
本稿では,視覚質問応答(VQA)タスクのためのグラフマッチング注意(GMA)ネットワークを提案する。
まず、画像用のグラフを構築するが、構文情報と埋め込み情報の両方の観点から質問用のグラフを構築する。
次に, 2段グラフエンコーダを用いてモダリティ内関係を探索し, 画像と質問の関係を推定するために, 注目に合う双方向のモダリティグラフを提示する。
実験により、我々のネットワークはGQAデータセットとVQA 2.0データセット上で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2021-12-14T10:01:26Z) - Discovering the Unknown Knowns: Turning Implicit Knowledge in the
Dataset into Explicit Training Examples for Visual Question Answering [18.33311267792116]
学習したVQAモデルに対する「未知」の多くは、データセットの中で暗黙的に「未知」であることがわかった。
我々は、この"既知の"知識をVQAのトレーニング例に変換するために、シンプルなデータ拡張パイプラインSimpleAugを紹介します。
論文 参考訳(メタデータ) (2021-09-13T16:56:43Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Leveraging Visual Question Answering to Improve Text-to-Image Synthesis [5.4897944234841445]
本稿では,テキスト・ツー・イメージ(T2I)合成と視覚質問応答(VQA)を併用して画像品質と画像・テキストアライメントを改善する効果的な方法を提案する。
質問と回答(QA)ペアを連結して追加のトレーニングサンプルを作成し、標準VQAモデルを用いてT2Iモデルに補助的な学習信号を提供する。
本法では,FIDを27.84から25.38に低下させ,R-prec>を83.82%から84.79%に上昇させる。
論文 参考訳(メタデータ) (2020-10-28T13:11:34Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。