論文の概要: A Transformer-based Cross-modal Fusion Model with Adversarial Training
for VQA Challenge 2021
- arxiv url: http://arxiv.org/abs/2106.13033v1
- Date: Thu, 24 Jun 2021 14:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:19:53.988884
- Title: A Transformer-based Cross-modal Fusion Model with Adversarial Training
for VQA Challenge 2021
- Title(参考訳): vqaチャレンジ2021の対向訓練を用いたトランスフォーマチッククロスモーダル融合モデル
- Authors: Ke-Han Lu, Bo-Han Fang, Kuan-Yu Chen
- Abstract要約: 本稿では,VQAチャレンジ2021における両概念を取り入れた,トランスフォーマーに基づく新たな相互融合モデリングを提案する。
実験により、新しいフレームワークはVQAv2テストstdセットで76.72%を達成した。
- 参考スコア(独自算出の注目度): 11.071401070511468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, inspired by the successes of visionlanguage pre-trained models
and the benefits from training with adversarial attacks, we present a novel
transformerbased cross-modal fusion modeling by incorporating the both notions
for VQA challenge 2021. Specifically, the proposed model is on top of the
architecture of VinVL model [19], and the adversarial training strategy [4] is
applied to make the model robust and generalized. Moreover, two implementation
tricks are also used in our system to obtain better results. The experiments
demonstrate that the novel framework can achieve 76.72% on VQAv2 test-std set.
- Abstract(参考訳): 本稿では、視覚言語事前学習モデルの成功と、敵攻撃による訓練の恩恵に触発されて、VQAチャレンジ2021の両概念を取り入れた、トランスフォーマーベースのクロスモーダル融合モデリングを提案する。
具体的には,提案モデルが VinVL モデル [19] のアーキテクチャ上にあり,そのモデルを堅牢かつ一般化するための対角的トレーニング戦略 [4] が適用される。
さらに,本システムでは,より優れた結果を得るために2つの実装手法が用いられている。
実験の結果、新しいフレームワークはVQAv2テストstdセットで76.72%を達成することができた。
関連論文リスト
- Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge [8.941623670652389]
本報告ではPRCVチャレンジの方法論について概説する。
シナリオの認知と意思決定に重点を置いています。
我々のモデルは0.6064のスコアを獲得し、競技の最終結果の最初の賞を確保した。
論文 参考訳(メタデータ) (2024-11-05T11:00:55Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - ProFuser: Progressive Fusion of Large Language Models [53.697927989207045]
トレーニングモードと推論モードの両方を組み込むことで、融合プロセスを強化する新しいアプローチを導入する。
本手法は,トレーニング中のクロスエントロピーだけでなく,推論出力も考慮してモデル優位性を評価する。
ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合した。
論文 参考訳(メタデータ) (2024-08-09T11:18:29Z) - RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder [3.7906296809297393]
本稿では,2つの新しいコードブック表現手法による課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介する。
実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。
この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。
論文 参考訳(メタデータ) (2024-05-23T06:32:42Z) - NOWJ1@ALQAC 2023: Enhancing Legal Task Performance with Classic
Statistical Models and Pre-trained Language Models [4.329463429688995]
本稿では,NOWJ1チームによるALQAC(Automated Legal Question Answering Competition)2023について述べる。
文書検索タスクでは、入力制限を克服し、学習からランクまでの手法を適用して様々なモデルの特徴を統合する。
我々は,従来の統計モデルと事前学習型言語モデルの両方を利用して,各サブタスクに対して異なるシステムを開発するために,最先端のモデルを組み込んだ。
論文 参考訳(メタデータ) (2023-09-16T18:32:15Z) - Generative Bias for Robust Visual Question Answering [74.42555378660653]
本稿では,GenB と呼ばれる対象モデルから直接バイアスモデルを学習するための生成手法を提案する。
特に、GenBは、敵の目的と知識の蒸留を組み合わせることで、ターゲットモデルのバイアスを学習するために生成ネットワークを使用している。
提案手法がVQA-CP2, VQA-CP1, GQA-OOD, VQA-CEなどの様々なVQAバイアスデータセットに与える影響を広範囲にわたる実験により明らかにした。
論文 参考訳(メタデータ) (2022-08-01T08:58:02Z) - Playing Lottery Tickets in Style Transfer Models [57.55795986289975]
スタイル・トランスファーは大きな成功を収め、学術界と工業界の両方から幅広い注目を集めた。
しかし、かなり大きなVGGベースのオートエンコーダへの依存は、パラメータの複雑度が高い既存のスタイル転送モデルに繋がる。
本研究では,このようなトレーニング可能なネットワークが,スタイル伝達モデルにも存在するかどうかを検証するための,最初の実証的研究を行う。
論文 参考訳(メタデータ) (2022-03-25T17:43:18Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Relation Modeling in Spatio-Temporal Action Localization [25.09128518931016]
本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。
提案手法は,関係時間的行動検出に複数種類の関係手法を用いており,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用している。
AVA-Kineticsのテストセットで40.67 mAPを達成した。
論文 参考訳(メタデータ) (2021-06-15T11:40:18Z) - Adversarial Concurrent Training: Optimizing Robustness and Accuracy
Trade-off of Deep Neural Networks [13.041607703862724]
ミニマックスゲームにおいて,自然モデルと連動して頑健なモデルを訓練するための適応的並行訓練(ACT)を提案する。
ACTは標準精度68.20%、目標外攻撃で44.29%のロバスト性を達成している。
論文 参考訳(メタデータ) (2020-08-16T22:14:48Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。