論文の概要: From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2206.01923v1
- Date: Sat, 4 Jun 2022 07:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:24:08.318290
- Title: From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering
- Title(参考訳): Pixelからオブジェクトへ: 視覚的質問応答のためのキュービックビジュアルアテンション
- Authors: Jingkuan Song, Pengpeng Zeng, Lianli Gao, Heng Tao Shen
- Abstract要約: 近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
- 参考スコア(独自算出の注目度): 132.95819467484517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, attention-based Visual Question Answering (VQA) has achieved great
success by utilizing question to selectively target different visual areas that
are related to the answer. Existing visual attention models are generally
planar, i.e., different channels of the last conv-layer feature map of an image
share the same weight. This conflicts with the attention mechanism because CNN
features are naturally spatial and channel-wise. Also, visual attention models
are usually conducted on pixel-level, which may cause region discontinuous
problems. In this paper, we propose a Cubic Visual Attention (CVA) model by
successfully applying a novel channel and spatial attention on object regions
to improve VQA task. Specifically, instead of attending to pixels, we first
take advantage of the object proposal networks to generate a set of object
candidates and extract their associated conv features. Then, we utilize the
question to guide channel attention and spatial attention calculation based on
the con-layer feature map. Finally, the attended visual features and the
question are combined to infer the answer. We assess the performance of our
proposed CVA on three public image QA datasets, including COCO-QA, VQA and
Visual7W. Experimental results show that our proposed method significantly
outperforms the state-of-the-arts.
- Abstract(参考訳): 近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域を選択的にターゲットすることで大きな成功を収めている。
既存の視覚注意モデルは一般的に平面的であり、画像の最後のconv層特徴マップの異なるチャネルは同じ重みを持つ。
これはCNNの特徴が自然に空間的かつチャネル的であるため、注意機構と矛盾する。
また、視覚注意モデルは通常ピクセルレベルで実行されるため、領域の不連続な問題を引き起こす可能性がある。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービックビジュアルアテンション(CVA)モデルを提案する。
具体的には、ピクセルに参加する代わりに、まずオブジェクトプロポーザルネットワークを利用して、オブジェクト候補のセットを生成し、関連するconv機能を抽出します。
そして,この質問を利用して,同層特徴写像に基づくチャネルアテンションと空間アテンションの計算を行う。
最後に、参加者の視覚的特徴と質問を組み合わせて答えを推測する。
我々は、COCO-QA、VQA、Visual7Wを含む3つの公開画像QAデータセットに対して提案したCVAの性能を評価する。
実験の結果,提案手法は最先端技術よりも優れていた。
関連論文リスト
- Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images [1.6932802756478726]
Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。
セグメンテーションによって導かれるアテンションメカニズムをRSVQAパイプラインに埋め込むことを提案する。
16のセグメンテーションクラスと問合せ/問合せペアでアノテートされた非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。
論文 参考訳(メタデータ) (2024-07-11T16:59:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - On the Efficacy of Co-Attention Transformer Layers in Visual Question
Answering [5.547800834335381]
本研究では,ネットワークが質問に答えつつ,関連する領域に注目する上で,コアテンション・トランスフォーマー・レイヤの有効性について検討する。
我々は,これらのコアテンション層における疑問条件付きイメージアテンションスコアを用いて視覚アテンションマップを生成する。
我々の研究は、コ・アテンション・トランスフォーマー・レイヤの機能と解釈に光を当て、現在のネットワークのギャップを強調し、将来のVQAモデルの開発を導くことができる。
論文 参考訳(メタデータ) (2022-01-11T14:25:17Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Answer Questions with Right Image Regions: A Visual Attention
Regularization Approach [46.55924742590242]
本稿では,視覚質問応答(VQA)における視覚的グラウンドニングを改善するために,新しい視覚的注意規則化手法であるAttRegを提案する。
AttRegは、バックボーンモデルによって予期せず無視される質問応答に不可欠なイメージ領域を特定する。
VQA-CP v2ベンチマークデータセットの絶対的なパフォーマンス向上は6.93%である。
論文 参考訳(メタデータ) (2021-02-03T07:33:30Z) - Point and Ask: Incorporating Pointing into Visual Question Answering [14.744503080484977]
VQA(Visual Question Answering)の拡張として,ポイントインプット質問の導入と動機付けを行う。
ポインティングは人間にとってほぼ普遍的なジェスチャーであり、現実世界のVQAはターゲット領域へのジェスチャーを含む可能性が高い。
我々は、人間の意図を推測する能力を含む、いくつかの視覚的認識課題を発見し、対処する。
論文 参考訳(メタデータ) (2020-11-27T11:43:45Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - In Defense of Grid Features for Visual Question Answering [65.71985794097426]
視覚的質問応答(VQA)のためのグリッド機能を再検討し、驚くほどうまく機能することを発見した。
我々は、この観測が様々なVQAモデルに当てはまることを検証し、画像キャプションのような他のタスクによく当てはまることを検証した。
VQAモデルは、ピクセルから直接回答までエンドツーエンドで学習し、事前トレーニングでリージョンアノテーションを使わずに、強いパフォーマンスが達成可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T18:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。