論文の概要: A Transformer-based Cross-modal Fusion Model with Adversarial Training
for VQA Challenge 2021
- arxiv url: http://arxiv.org/abs/2106.13033v1
- Date: Thu, 24 Jun 2021 14:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:19:53.988884
- Title: A Transformer-based Cross-modal Fusion Model with Adversarial Training
for VQA Challenge 2021
- Title(参考訳): vqaチャレンジ2021の対向訓練を用いたトランスフォーマチッククロスモーダル融合モデル
- Authors: Ke-Han Lu, Bo-Han Fang, Kuan-Yu Chen
- Abstract要約: 本稿では,VQAチャレンジ2021における両概念を取り入れた,トランスフォーマーに基づく新たな相互融合モデリングを提案する。
実験により、新しいフレームワークはVQAv2テストstdセットで76.72%を達成した。
- 参考スコア(独自算出の注目度): 11.071401070511468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, inspired by the successes of visionlanguage pre-trained models
and the benefits from training with adversarial attacks, we present a novel
transformerbased cross-modal fusion modeling by incorporating the both notions
for VQA challenge 2021. Specifically, the proposed model is on top of the
architecture of VinVL model [19], and the adversarial training strategy [4] is
applied to make the model robust and generalized. Moreover, two implementation
tricks are also used in our system to obtain better results. The experiments
demonstrate that the novel framework can achieve 76.72% on VQAv2 test-std set.
- Abstract(参考訳): 本稿では、視覚言語事前学習モデルの成功と、敵攻撃による訓練の恩恵に触発されて、VQAチャレンジ2021の両概念を取り入れた、トランスフォーマーベースのクロスモーダル融合モデリングを提案する。
具体的には,提案モデルが VinVL モデル [19] のアーキテクチャ上にあり,そのモデルを堅牢かつ一般化するための対角的トレーニング戦略 [4] が適用される。
さらに,本システムでは,より優れた結果を得るために2つの実装手法が用いられている。
実験の結果、新しいフレームワークはVQAv2テストstdセットで76.72%を達成することができた。
関連論文リスト
- NOWJ1@ALQAC 2023: Enhancing Legal Task Performance with Classic
Statistical Models and Pre-trained Language Models [4.329463429688995]
本稿では,NOWJ1チームによるALQAC(Automated Legal Question Answering Competition)2023について述べる。
文書検索タスクでは、入力制限を克服し、学習からランクまでの手法を適用して様々なモデルの特徴を統合する。
我々は,従来の統計モデルと事前学習型言語モデルの両方を利用して,各サブタスクに対して異なるシステムを開発するために,最先端のモデルを組み込んだ。
論文 参考訳(メタデータ) (2023-09-16T18:32:15Z) - Generative Bias for Robust Visual Question Answering [74.42555378660653]
本稿では,GenB と呼ばれる対象モデルから直接バイアスモデルを学習するための生成手法を提案する。
特に、GenBは、敵の目的と知識の蒸留を組み合わせることで、ターゲットモデルのバイアスを学習するために生成ネットワークを使用している。
提案手法がVQA-CP2, VQA-CP1, GQA-OOD, VQA-CEなどの様々なVQAバイアスデータセットに与える影響を広範囲にわたる実験により明らかにした。
論文 参考訳(メタデータ) (2022-08-01T08:58:02Z) - Playing Lottery Tickets in Style Transfer Models [57.55795986289975]
スタイル・トランスファーは大きな成功を収め、学術界と工業界の両方から幅広い注目を集めた。
しかし、かなり大きなVGGベースのオートエンコーダへの依存は、パラメータの複雑度が高い既存のスタイル転送モデルに繋がる。
本研究では,このようなトレーニング可能なネットワークが,スタイル伝達モデルにも存在するかどうかを検証するための,最初の実証的研究を行う。
論文 参考訳(メタデータ) (2022-03-25T17:43:18Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering [49.36818290978525]
既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。
本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
論文 参考訳(メタデータ) (2021-07-24T10:17:48Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Relation Modeling in Spatio-Temporal Action Localization [25.09128518931016]
本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。
提案手法は,関係時間的行動検出に複数種類の関係手法を用いており,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用している。
AVA-Kineticsのテストセットで40.67 mAPを達成した。
論文 参考訳(メタデータ) (2021-06-15T11:40:18Z) - Adversarial Concurrent Training: Optimizing Robustness and Accuracy
Trade-off of Deep Neural Networks [13.041607703862724]
ミニマックスゲームにおいて,自然モデルと連動して頑健なモデルを訓練するための適応的並行訓練(ACT)を提案する。
ACTは標準精度68.20%、目標外攻撃で44.29%のロバスト性を達成している。
論文 参考訳(メタデータ) (2020-08-16T22:14:48Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - Gradient-Based Adversarial Training on Transformer Networks for
Detecting Check-Worthy Factual Claims [3.7543966923106438]
本稿では,最初の逆正則変換型クレームスポッタモデルを提案する。
現在の最先端モデルよりもF1スコアが4.70ポイント向上した。
本稿では,変換器モデルに逆学習を適用する手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。