論文の概要: Sparse and Structured Visual Attention
- arxiv url: http://arxiv.org/abs/2002.05556v2
- Date: Thu, 8 Jul 2021 12:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 09:43:37.693431
- Title: Sparse and Structured Visual Attention
- Title(参考訳): スパースと構造化された視覚的注意
- Authors: Pedro Henrique Martins, Vlad Niculae, Zita Marinho, Andr\'e Martins
- Abstract要約: 従来のソフトマックス・アテンション・メカニズムを2つの代替スペーサリティ・プロモーティング・トランスフォーメーションに置き換える。
実験では、精度が向上し、人間の注意と高い類似性が示され、解釈可能性の向上が示唆されている。
- 参考スコア(独自算出の注目度): 15.227884641004673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual attention mechanisms are widely used in multimodal tasks, as visual
question answering (VQA). One drawback of softmax-based attention mechanisms is
that they assign some probability mass to all image regions, regardless of
their adjacency structure and of their relevance to the text. In this paper, to
better link the image structure with the text, we replace the traditional
softmax attention mechanism with two alternative sparsity-promoting
transformations: sparsemax, which is able to select only the relevant regions
(assigning zero weight to the rest), and a newly proposed Total-Variation
Sparse Attention (TVmax), which further encourages the joint selection of
adjacent spatial locations. Experiments in VQA show gains in accuracy as well
as higher similarity to human attention, which suggests better
interpretability.
- Abstract(参考訳): 視覚注意機構は、視覚質問応答(vqa)のようなマルチモーダルタスクで広く使われている。
softmaxベースの注意機構の欠点の一つは、その隣接構造やテキストとの関連に関わらず、すべての画像領域にある程度の確率質量を割り当てることである。
本稿では,画像構造とテキストをよりよく結びつけるために,従来のソフトマックスの注意機構を,関連領域のみを選択可能なスパースマックスと,隣接する空間位置の同時選択を促進できる全変動スパースアテンション (TVmax) という,2つの代替の空間性促進変換に置き換える。
VQAの実験では、精度が向上し、人間の注意と高い類似性が示される。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Multimodal Continuous Visual Attention Mechanisms [3.222802562733787]
ガウスの混合物の形で多様密度を生成する新しい連続的注意機構を提案する。
我々の密度は一様注意機構の線形結合として分解し、バックプロパゲーションステップに対して閉形式ジャコビアンを可能にする。
論文 参考訳(メタデータ) (2021-04-07T10:47:51Z) - Adaptive Bi-directional Attention: Exploring Multi-Granularity
Representations for Machine Reading Comprehension [29.717816161964105]
異なるレベルのソース表現を予測器に適応的に適用するAdaptive Bidirectional Attentionと呼ばれる新しいアプローチを提案する。
結果は、2.5$%$ EMと2.3$%$ F1スコアによる以前の最新モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-20T09:31:35Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。