Fugu-MT 論文翻訳(概要): A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021

論文の概要: A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021

arxiv url: http://arxiv.org/abs/2106.13033v1
Date: Thu, 24 Jun 2021 14:09:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-25 15:19:53.988884
Title: A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021
Title（参考訳）: vqaチャレンジ2021の対向訓練を用いたトランスフォーマチッククロスモーダル融合モデル
Authors: Ke-Han Lu, Bo-Han Fang, Kuan-Yu Chen
Abstract要約: 本稿では,VQAチャレンジ2021における両概念を取り入れた,トランスフォーマーに基づく新たな相互融合モデリングを提案する。実験により、新しいフレームワークはVQAv2テストstdセットで76.72%を達成した。
参考スコア（独自算出の注目度）: 11.071401070511468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, inspired by the successes of visionlanguage pre-trained models and the benefits from training with adversarial attacks, we present a novel transformerbased cross-modal fusion modeling by incorporating the both notions for VQA challenge 2021. Specifically, the proposed model is on top of the architecture of VinVL model [19], and the adversarial training strategy [4] is applied to make the model robust and generalized. Moreover, two implementation tricks are also used in our system to obtain better results. The experiments demonstrate that the novel framework can achieve 76.72% on VQAv2 test-std set.
Abstract（参考訳）: 本稿では、視覚言語事前学習モデルの成功と、敵攻撃による訓練の恩恵に触発されて、VQAチャレンジ2021の両概念を取り入れた、トランスフォーマーベースのクロスモーダル融合モデリングを提案する。具体的には,提案モデルが VinVL モデル [19] のアーキテクチャ上にあり,そのモデルを堅牢かつ一般化するための対角的トレーニング戦略 [4] が適用される。さらに,本システムでは,より優れた結果を得るために2つの実装手法が用いられている。実験の結果、新しいフレームワークはVQAv2テストstdセットで76.72%を達成することができた。

関連論文リスト

Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文参考訳（メタデータ） (2025-05-21T12:18:15Z)
LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention [0.0]
本稿では,LLMモジュールのアーキテクチャを提案する。LLMモジュールは,学習済みの大きなモデルからより小さなモデルへの知識の伝達を可能にする。提案手法では,Qwen2-1.5Bモデルを凍結し,その表現を特別に設計された注意層からGPT-Neo-125Mモデルに伝達する。 Bespoke-Stratos-17kデータセットの実験結果から, 混合モデルでは, 蒸留により得られたものと同等の品質の応答が得られた。
論文参考訳（メタデータ） (2025-02-12T08:48:55Z)
Precise Drive with VLM: First Prize Solution for PRCV 2024 Drive LM challenge [8.941623670652389]
本報告ではPRCVチャレンジの方法論について概説する。シナリオの認知と意思決定に重点を置いています。我々のモデルは0.6064のスコアを獲得し、競技の最終結果の最初の賞を確保した。
論文参考訳（メタデータ） (2024-11-05T11:00:55Z)
T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-10-08T04:30:06Z)
ProFuser: Progressive Fusion of Large Language Models [53.697927989207045]
トレーニングモードと推論モードの両方を組み込むことで、融合プロセスを強化する新しいアプローチを導入する。本手法は,トレーニング中のクロスエントロピーだけでなく,推論出力も考慮してモデル優位性を評価する。 ProFuserの有効性を検証するために, vicuna-7b-v1.5, Llama-2-7b-chat, mpt-7b-8k-chatの3つのモデルを融合した。
論文参考訳（メタデータ） (2024-08-09T11:18:29Z)
RAQ-VAE: Rate-Adaptive Vector-Quantized Variational Autoencoder [3.7906296809297393]
本稿では,2つの新しいコードブック表現手法による課題に対処するRate-Adaptive VQ-VAE(RAQ-VAE)フレームワークを紹介する。実験により、RAQ-VAEは複数のレートで効率的な再構成性能を示し、従来の固定レートVQ-VAEモデルよりも優れていることがわかった。この研究により、VQ-VAEの適応性と性能が向上し、データ再構成、生成、コンピュータビジョンタスクに広く応用されている。
論文参考訳（メタデータ） (2024-05-23T06:32:42Z)
NOWJ1@ALQAC 2023: Enhancing Legal Task Performance with Classic Statistical Models and Pre-trained Language Models [4.329463429688995]
本稿では,NOWJ1チームによるALQAC(Automated Legal Question Answering Competition)2023について述べる。文書検索タスクでは、入力制限を克服し、学習からランクまでの手法を適用して様々なモデルの特徴を統合する。我々は,従来の統計モデルと事前学習型言語モデルの両方を利用して,各サブタスクに対して異なるシステムを開発するために,最先端のモデルを組み込んだ。
論文参考訳（メタデータ） (2023-09-16T18:32:15Z)
Generative Bias for Robust Visual Question Answering [74.42555378660653]
本稿では,GenB と呼ばれる対象モデルから直接バイアスモデルを学習するための生成手法を提案する。特に、GenBは、敵の目的と知識の蒸留を組み合わせることで、ターゲットモデルのバイアスを学習するために生成ネットワークを使用している。提案手法がVQA-CP2, VQA-CP1, GQA-OOD, VQA-CEなどの様々なVQAバイアスデータセットに与える影響を広範囲にわたる実験により明らかにした。
論文参考訳（メタデータ） (2022-08-01T08:58:02Z)
Playing Lottery Tickets in Style Transfer Models [57.55795986289975]
スタイル・トランスファーは大きな成功を収め、学術界と工業界の両方から幅広い注目を集めた。しかし、かなり大きなVGGベースのオートエンコーダへの依存は、パラメータの複雑度が高い既存のスタイル転送モデルに繋がる。本研究では,このようなトレーニング可能なネットワークが,スタイル伝達モデルにも存在するかどうかを検証するための,最初の実証的研究を行う。
論文参考訳（メタデータ） (2022-03-25T17:43:18Z)
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文参考訳（メタデータ） (2021-10-03T14:31:46Z)
Relation Modeling in Spatio-Temporal Action Localization [25.09128518931016]
本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。提案手法は,関係時間的行動検出に複数種類の関係手法を用いており,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用している。 AVA-Kineticsのテストセットで40.67 mAPを達成した。
論文参考訳（メタデータ） (2021-06-15T11:40:18Z)
Adversarial Concurrent Training: Optimizing Robustness and Accuracy Trade-off of Deep Neural Networks [13.041607703862724]
ミニマックスゲームにおいて,自然モデルと連動して頑健なモデルを訓練するための適応的並行訓練(ACT)を提案する。 ACTは標準精度68.20%、目標外攻撃で44.29%のロバスト性を達成している。
論文参考訳（メタデータ） (2020-08-16T22:14:48Z)
Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。 CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。 VQA-CP v2では58.95%,6.5%向上した。
論文参考訳（メタデータ） (2020-03-14T08:34:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。