論文の概要: Modality Shifting Attention Network for Multi-modal Video Question
Answering
- arxiv url: http://arxiv.org/abs/2007.02036v1
- Date: Sat, 4 Jul 2020 08:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:27:37.900742
- Title: Modality Shifting Attention Network for Multi-modal Video Question
Answering
- Title(参考訳): マルチモーダルビデオ質問応答のためのモーダリティシフト型注意ネットワーク
- Authors: Junyeong Kim, Minuk Ma, Trung Pham, Kyungsu Kim, Chang D. Yoo
- Abstract要約: 本稿では,Multimodal Video Question Answering (MVQA) タスクのための Modality Shifting Attention Network (MSAN) と呼ばれるネットワークについて考察する。
MSANはタスクを,(1)質問に関連する時間的モーメントの局所化,(2)回答の局所化モーメントに基づく正確な予測の2つのサブタスクに分解する。
実験の結果、MSANはTVQAベンチマークデータセットで71.13%のテスト精度を達成し、従来の最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 23.823543528493314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers a network referred to as Modality Shifting Attention
Network (MSAN) for Multimodal Video Question Answering (MVQA) task. MSAN
decomposes the task into two sub-tasks: (1) localization of temporal moment
relevant to the question, and (2) accurate prediction of the answer based on
the localized moment. The modality required for temporal localization may be
different from that for answer prediction, and this ability to shift modality
is essential for performing the task. To this end, MSAN is based on (1) the
moment proposal network (MPN) that attempts to locate the most appropriate
temporal moment from each of the modalities, and also on (2) the heterogeneous
reasoning network (HRN) that predicts the answer using an attention mechanism
on both modalities. MSAN is able to place importance weight on the two
modalities for each sub-task using a component referred to as Modality
Importance Modulation (MIM). Experimental results show that MSAN outperforms
previous state-of-the-art by achieving 71.13\% test accuracy on TVQA benchmark
dataset. Extensive ablation studies and qualitative analysis are conducted to
validate various components of the network.
- Abstract(参考訳): 本稿では,Multimodal Video Question Answering (MVQA) タスクのための Modality Shifting Attention Network (MSAN) と呼ばれるネットワークについて考察する。
MSANはタスクを,(1)質問に関連する時間的モーメントの局所化,(2)回答の局所化モーメントに基づく正確な予測の2つのサブタスクに分解する。
時間的局所化に必要なモダリティは、回答予測のモダリティとは異なる場合があり、このモダリティをシフトする能力はタスクの実行に不可欠である。
この目的のためにMSANは、(1)各モーダルから最も適切な時間的モーメントを見つけるためのモーメント提案ネットワーク(MPN)と、(2)両モーダルの注意機構を用いて回答を予測する異種推論ネットワーク(HRN)に基づいている。
msanは、modality importance modulation(mim)と呼ばれるコンポーネントを使用して、各サブタスクの2つのモダリティに重みを付けることができる。
実験の結果、MSANはTVQAベンチマークデータセットで71.13\%のテスト精度を達成して、従来の最先端技術よりも優れていた。
広範囲なアブレーション研究と質的分析を行い、ネットワークの様々な構成要素を検証する。
関連論文リスト
- MFE-ETP: A Comprehensive Evaluation Benchmark for Multi-modal Foundation Models on Embodied Task Planning [50.45558735526665]
具体的タスクプランニングにおけるMFMの性能について,より深く,包括的に評価する。
我々は,その複雑で可変なタスクシナリオを特徴付けるMFE-ETPという新しいベンチマークを提案する。
ベンチマークと評価プラットフォームを用いて、いくつかの最先端のMFMを評価し、それらが人間レベルの性能に著しく遅れていることを発見した。
論文 参考訳(メタデータ) (2024-07-06T11:07:18Z) - Efficient Multitask Dense Predictor via Binarization [19.5100813204537]
資源集約型マルチタスク密度予測器を圧縮するために,ネットワークバイナライゼーションを導入する。
両立マルチタスクDense Predictor, Bi-MTDP, およびいくつかの種類のBi-MTDPを提案する。
Bi-MTDPの1つの変種は、フル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)より優れている
論文 参考訳(メタデータ) (2024-05-23T03:19:23Z) - Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T09:32:25Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - ST-MAML: A Stochastic-Task based Method for Task-Heterogeneous
Meta-Learning [12.215288736524268]
本稿では,モデルに依存しないメタラーニング(MAML)を複数のタスク分布から学習するための新しい手法ST-MAMLを提案する。
そこで本研究では,ST-MAMLが2つの画像分類タスク,1つの曲線評価ベンチマーク,1つの画像補完問題,および実世界の温度予測アプリケーションにおいて,最先端の映像分類タスクに適合または優れることを示す。
論文 参考訳(メタデータ) (2021-09-27T18:54:50Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Joint predictions of multi-modal ride-hailing demands: a deep multi-task
multigraph learning-based approach [64.18639899347822]
本稿では、複数のマルチグラフ畳み込み(MGC)ネットワークを組み合わせて、異なるサービスモードの要求を予測する深層マルチタスクマルチグラフ学習手法を提案する。
提案手法は,様々な配車モードの予測精度において,ベンチマークアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T07:10:50Z) - DUMA: Reading Comprehension with Transposition Thinking [107.89721765056281]
MRC (Multi-choice Machine Reading) は、解答オプションのセットから正しい解答を決定するためのモデルを必要とする。
新しい Dual Multi-head Co-Attention (DUMA) モデルは、多選択MRC問題を解決する人間の転置思考プロセスにインスパイアされている。
論文 参考訳(メタデータ) (2020-01-26T07:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。