論文の概要: Coarse-to-Fine Reasoning for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2110.02526v1
- Date: Wed, 6 Oct 2021 06:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:26:42.962662
- Title: Coarse-to-Fine Reasoning for Visual Question Answering
- Title(参考訳): 視覚的質問応答のための粗相関推論
- Authors: Binh X. Nguyen, Tuong Do, Huy Tran, Erman Tjiputra, Quang D. Tran, Anh
Nguyen
- Abstract要約: 視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.535633096397397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the semantic gap between image and question is an important step to
improve the accuracy of the Visual Question Answering (VQA) task. However, most
of the existing VQA methods focus on attention mechanisms or visual relations
for reasoning the answer, while the features at different semantic levels are
not fully utilized. In this paper, we present a new reasoning framework to fill
the gap between visual features and semantic clues in the VQA task. Our method
first extracts the features and predicates from the image and question. We then
propose a new reasoning framework to effectively jointly learn these features
and predicates in a coarse-to-fine manner. The intensively experimental results
on three large-scale VQA datasets show that our proposed approach achieves
superior accuracy comparing with other state-of-the-art methods. Furthermore,
our reasoning framework also provides an explainable way to understand the
decision of the deep neural network when predicting the answer.
- Abstract(参考訳): 画像と質問のセマンティックなギャップを埋めることは、視覚質問回答(VQA)タスクの精度を向上させる重要なステップである。
しかしながら、既存のVQA手法のほとんどは、解答を推論するための注意機構や視覚的関係に重点を置いているが、異なる意味レベルの特徴は十分に活用されていない。
本稿では,VQAタスクにおける視覚的特徴と意味的手がかりのギャップを埋めるための新しい推論フレームワークを提案する。
本手法はまず,画像と質問から特徴と述語を抽出する。
次に,これらの特徴を効果的に学習し,粗末に述語する新しい推論フレームワークを提案する。
3つの大規模VQAデータセットの集中的な実験結果から,提案手法が他の最先端手法と比較して精度が高いことを示す。
さらに、この推論フレームワークは、回答を予測する際にディープニューラルネットワークの決定を理解するための説明可能な方法を提供する。
関連論文リスト
- Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images [1.6932802756478726]
Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。
セグメンテーションによって導かれるアテンションメカニズムをRSVQAパイプラインに埋め込むことを提案する。
16のセグメンテーションクラスと問合せ/問合せペアでアノテートされた非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。
論文 参考訳(メタデータ) (2024-07-11T16:59:32Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。