論文の概要: MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2010.14095v1
- Date: Tue, 27 Oct 2020 06:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:15:22.596710
- Title: MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual
Question Answering
- Title(参考訳): MMFT-BERT:ビジュアル質問応答のためのBERT符号化による多モード核融合変換器
- Authors: Aisha Urooj Khan, Amir Mazaheri, Niels da Vitoria Lobo, Mubarak Shah
- Abstract要約: 視覚質問応答(VQA)を解決するためのMMFT-BERT (MultiModal Fusion Transformer with BERT encodings)を提案する。
提案手法は,BERTエンコーディングを個別に採用したマルチモーダルデータを処理し,新しいトランスフォーマーベースの融合法を用いて融合する。
- 参考スコア(独自算出の注目度): 68.40719618351429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MMFT-BERT(MultiModal Fusion Transformer with BERT encodings), to
solve Visual Question Answering (VQA) ensuring individual and combined
processing of multiple input modalities. Our approach benefits from processing
multimodal data (video and text) adopting the BERT encodings individually and
using a novel transformer-based fusion method to fuse them together. Our method
decomposes the different sources of modalities, into different BERT instances
with similar architectures, but variable weights. This achieves SOTA results on
the TVQA dataset. Additionally, we provide TVQA-Visual, an isolated diagnostic
subset of TVQA, which strictly requires the knowledge of visual (V) modality
based on a human annotator's judgment. This set of questions helps us to study
the model's behavior and the challenges TVQA poses to prevent the achievement
of super human performance. Extensive experiments show the effectiveness and
superiority of our method.
- Abstract(参考訳): 本稿では,複数入力モードの個別および複合処理を保証するために,MMFT-BERT(MultiModal Fusion Transformer with BERT encodings)を提案する。
提案手法は,BERTエンコーディングを個別に採用したマルチモーダルデータ(ビデオとテキスト)を処理し,新しいトランスフォーマーベースの融合法を用いて融合する。
提案手法は,異なるモダリティのソースを,類似のアーキテクチャを持つ異なるBERTインスタンスに分解するが,重みは可変である。
これにより、TVQAデータセット上でSOTA結果が得られる。
さらに,TVQAの独立した診断サブセットであるTVQA-Visualを提供する。
この一連の質問は、スーパーヒューマンパフォーマンスの達成を防ぐために、モデルの振る舞いとTVQAがもたらす課題を研究するのに役立ちます。
本手法の有効性と優位性を示す実験を行った。
関連論文リスト
- CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Incorporating Probing Signals into Multimodal Machine Translation via
Visual Question-Answering Pairs [45.41083125321069]
マルチモーダル機械翻訳(MMT)システムは、テキスト入力が完了すると視覚情報に対する感度が低下する。
ソーステキストからVQAスタイルのペアを並列に生成する手法が提案されている。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
論文 参考訳(メタデータ) (2023-10-26T04:13:49Z) - Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - schuBERT: Optimizing Elements of BERT [22.463154358632472]
我々は、より軽量なモデルを得るため、BERTのアーキテクチャ選択を再考する。
アルゴリズムによって選択された正しい設計次元を減らし,より効率的な光BERTモデルが得られることを示す。
特に、私たちのschuBERTは、3つのエンコーダ層を持つBERTと比較して、GLUEとSQuADデータセットの平均精度を6.6%以上提供しています。
論文 参考訳(メタデータ) (2020-05-09T21:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。