論文の概要: Multimodal Integration of Human-Like Attention in Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2109.13139v1
- Date: Mon, 27 Sep 2021 15:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:57:07.191522
- Title: Multimodal Integration of Human-Like Attention in Visual Question
Answering
- Title(参考訳): 視覚的質問応答における人間的注意のマルチモーダル統合
- Authors: Ekta Sood, Fabian K\"ogel, Philipp M\"uller, Dominike Thomas, Mihai
Bace, Andreas Bulling
- Abstract要約: MULAN(Multimodal Human-like Attention Network)について述べる。
MULANは、VQAモデルのトレーニング中に、画像やテキストに対する人間のような注意をマルチモーダルに統合する最初の方法である。
MULANは、テストスタッドでは73.98%、テストデブでは73.72%の精度で新しい最先端性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 13.85096308757021
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human-like attention as a supervisory signal to guide neural attention has
shown significant promise but is currently limited to uni-modal integration -
even for inherently multimodal tasks such as visual question answering (VQA).
We present the Multimodal Human-like Attention Network (MULAN) - the first
method for multimodal integration of human-like attention on image and text
during training of VQA models. MULAN integrates attention predictions from two
state-of-the-art text and image saliency models into neural self-attention
layers of a recent transformer-based VQA model. Through evaluations on the
challenging VQAv2 dataset, we show that MULAN achieves a new state-of-the-art
performance of 73.98% accuracy on test-std and 73.72% on test-dev and, at the
same time, has approximately 80% fewer trainable parameters than prior work.
Overall, our work underlines the potential of integrating multimodal human-like
and neural attention for VQA
- Abstract(参考訳): 神経的注意を導くための監視信号としての人間のような注意は、大きな可能性を秘めているが、現在は視覚的質問応答(VQA)のような本質的にマルチモーダルなタスクに対するユニモーダル統合に限られている。
本稿では,vqaモデルの学習中に画像とテキストに対する人間的注意のマルチモーダル統合を行う最初の手法であるmulan(multimodal human-like attention network)を提案する。
MULANは、最新のトランスフォーマーベースのVQAモデルの神経自己注意層に、最先端の2つのテキストおよびイメージサリエンシモデルからの注意予測を統合する。
挑戦的なVQAv2データセットの評価を通じて、MULANがテストストッドで73.98%、テストデフで73.72%の精度で新しい最先端性能を実現し、同時にトレーニング可能なパラメータが前よりも約80%少ないことを示す。
全体として、我々の研究はVQAのためのマルチモーダルな人間ライクとニューラルアテンションの統合の可能性を強調している。
関連論文リスト
- Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。
画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-30T22:32:50Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Multimodal End-to-End Group Emotion Recognition using Cross-Modal
Attention [0.0]
グループレベルの感情を分類することは、ビデオの複雑さのために難しい課題である。
VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度が得られた。
論文 参考訳(メタデータ) (2021-11-10T19:19:26Z) - VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual
Question Answering [15.017443876780286]
VQA-MHUG - 視覚的質問応答(VQA)における画像と質問の両方をマルチモーダルで見る新しいデータセット。
われわれのデータセットを用いて、5つの最先端VQAモデルから得られた人間と神経の注意戦略の類似性を分析する。
論文 参考訳(メタデータ) (2021-09-27T15:06:10Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。