論文の概要: Multimodal Integration of Human-Like Attention in Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2109.13139v1
- Date: Mon, 27 Sep 2021 15:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:57:07.191522
- Title: Multimodal Integration of Human-Like Attention in Visual Question
Answering
- Title(参考訳): 視覚的質問応答における人間的注意のマルチモーダル統合
- Authors: Ekta Sood, Fabian K\"ogel, Philipp M\"uller, Dominike Thomas, Mihai
Bace, Andreas Bulling
- Abstract要約: MULAN(Multimodal Human-like Attention Network)について述べる。
MULANは、VQAモデルのトレーニング中に、画像やテキストに対する人間のような注意をマルチモーダルに統合する最初の方法である。
MULANは、テストスタッドでは73.98%、テストデブでは73.72%の精度で新しい最先端性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 13.85096308757021
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-like attention as a supervisory signal to guide neural attention has
shown significant promise but is currently limited to uni-modal integration -
even for inherently multimodal tasks such as visual question answering (VQA).
We present the Multimodal Human-like Attention Network (MULAN) - the first
method for multimodal integration of human-like attention on image and text
during training of VQA models. MULAN integrates attention predictions from two
state-of-the-art text and image saliency models into neural self-attention
layers of a recent transformer-based VQA model. Through evaluations on the
challenging VQAv2 dataset, we show that MULAN achieves a new state-of-the-art
performance of 73.98% accuracy on test-std and 73.72% on test-dev and, at the
same time, has approximately 80% fewer trainable parameters than prior work.
Overall, our work underlines the potential of integrating multimodal human-like
and neural attention for VQA
- Abstract(参考訳): 神経的注意を導くための監視信号としての人間のような注意は、大きな可能性を秘めているが、現在は視覚的質問応答(VQA)のような本質的にマルチモーダルなタスクに対するユニモーダル統合に限られている。
本稿では,vqaモデルの学習中に画像とテキストに対する人間的注意のマルチモーダル統合を行う最初の手法であるmulan(multimodal human-like attention network)を提案する。
MULANは、最新のトランスフォーマーベースのVQAモデルの神経自己注意層に、最先端の2つのテキストおよびイメージサリエンシモデルからの注意予測を統合する。
挑戦的なVQAv2データセットの評価を通じて、MULANがテストストッドで73.98%、テストデフで73.72%の精度で新しい最先端性能を実現し、同時にトレーニング可能なパラメータが前よりも約80%少ないことを示す。
全体として、我々の研究はVQAのためのマルチモーダルな人間ライクとニューラルアテンションの統合の可能性を強調している。
関連論文リスト
- SwinFace: A Multi-task Transformer for Face Recognition, Expression
Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。
複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。
実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-22T15:38:39Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Multimodal End-to-End Group Emotion Recognition using Cross-Modal
Attention [0.0]
グループレベルの感情を分類することは、ビデオの複雑さのために難しい課題である。
VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度が得られた。
論文 参考訳(メタデータ) (2021-11-10T19:19:26Z) - VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering [15.017443876780286]
VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。
われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
論文 参考訳(メタデータ) (2021-09-27T15:06:10Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Regularizing Attention Networks for Anomaly Detection in Visual Question
Answering [10.971443035470488]
最先端VQAモデルのロバスト性を5つの異なる異常に評価する。
入力画像と質問間の推論の信頼度を利用した注意に基づく手法を提案する。
注意ネットワークの最大エントロピー正規化は、注意に基づく異常検出を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-09-21T17:47:49Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。