論文の概要: Answer-checking in Context: A Multi-modal FullyAttention Network for
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2010.08708v1
- Date: Sat, 17 Oct 2020 03:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 09:13:33.752391
- Title: Answer-checking in Context: A Multi-modal FullyAttention Network for
Visual Question Answering
- Title(参考訳): コンテキストにおける回答チェック:視覚的質問応答のためのマルチモーダルフルアテンションネットワーク
- Authors: Hantao Huang, Tao Han, Wei Han, Deep Yap, Cheng-Ming Chiang
- Abstract要約: 完全注意に基づく視覚質問応答アーキテクチャを提案する。
共同回答,質問,画像表現を統一的に注目するために,回答チェックモジュールを提案する。
VQA-v2.0テスト標準スプリットのパラメータを減らし,最先端の精度71.57%を実現した。
- 参考スコア(独自算出の注目度): 8.582218033859087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is challenging due to the complex cross-modal
relations. It has received extensive attention from the research community.
From the human perspective, to answer a visual question, one needs to read the
question and then refer to the image to generate an answer. This answer will
then be checked against the question and image again for the final
confirmation. In this paper, we mimic this process and propose a fully
attention based VQA architecture. Moreover, an answer-checking module is
proposed to perform a unified attention on the jointly answer, question and
image representation to update the answer. This mimics the human answer
checking process to consider the answer in the context. With answer-checking
modules and transferred BERT layers, our model achieves the state-of-the-art
accuracy 71.57\% using fewer parameters on VQA-v2.0 test-standard split.
- Abstract(参考訳): VQA(Visual Question Answering)は、複雑な相互モーダル関係のため困難である。
研究コミュニティから広く注目を集めている。
人間の視点では、視覚的な質問に答えるには、質問を読んで、画像を参照して答えを生成する必要がある。
この答えは質問に対して確認され、最終確認のために再度イメージされる。
本稿では,このプロセスを模倣し,vqaアーキテクチャに完全注目することを提案する。
さらに,共同回答,質問,画像表現に統一的な注意を払って回答を更新するために,回答チェックモジュールを提案する。
これは、人間の回答チェックプロセスを模倣して、コンテキスト内の回答を検討する。
VQA-v2.0テスト標準スプリットのパラメータを減らして、回答チェックモジュールと転送BERT層を用いて、最先端の精度71.57\%を達成する。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Answer Mining from a Pool of Images: Towards Retrieval-Based Visual
Question Answering [7.3532068640624395]
本研究では,関連性のある無関係な画像のプールから回答を抽出しなければならない状況下で,視覚的質問応答について検討する。
そこで我々は,疑問を呈し,関連エンコーダを用いて画像検索を行うMulti Image BART (MI-BART) を提案する。
提案手法は,提案したデータセット,すなわちRETVQAにおいて76.5%の精度と79.3%の流速を実現する。
論文 参考訳(メタデータ) (2023-06-29T06:22:43Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - Co-VQA : Answering by Interactive Sub Question Sequence [18.476819557695087]
本稿では,質問者,Oracle,Answererの3つのコンポーネントからなる対話型VQAフレームワークを提案する。
モデル毎に教師あり学習を行うために,VQA 2.0 と VQA-CP v2 データセット上で,各質問に対する SQS を構築する方法を提案する。
論文 参考訳(メタデータ) (2022-04-02T15:09:16Z) - Check It Again: Progressive Visual Question Answering via Visual
Entailment [12.065178204539693]
Visual Entailmentに基づいたSAR(Select-and-Rerank)プログレッシブフレームワークを提案する。
まず、質問や画像に関連する候補の答えを選択し、その候補の答えを視覚的細分化タスクで並べ替える。
実験の結果,VQA-CP v2の精度が7.55%向上した。
論文 参考訳(メタデータ) (2021-06-08T18:00:38Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Beyond VQA: Generating Multi-word Answer and Rationale to Visual
Questions [27.807568245576718]
ViQAR(Visual Question Answering and Reasoning)では、モデルが完全な回答と、生成した回答を正当化する根拠を生成する必要がある。
我々は,人間のチューリングテストと同様に質的,定量的な評価によって,モデルが強い答えと有理性を生成することを示す。
論文 参考訳(メタデータ) (2020-10-24T09:44:50Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。