論文の概要: Variational Structured Attention Networks for Deep Visual Representation
Learning
- arxiv url: http://arxiv.org/abs/2103.03510v1
- Date: Fri, 5 Mar 2021 07:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:51:02.526889
- Title: Variational Structured Attention Networks for Deep Visual Representation
Learning
- Title(参考訳): Deep Visual Representation Learningのための可変構造的注意ネットワーク
- Authors: Guanglei Yang, Paolo Rota, Xavier Alameda-Pineda, Dan Xu, Mingli Ding,
Elisa Ricci
- Abstract要約: 空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
- 参考スコア(独自算出の注目度): 49.80498066480928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks have enabled major progress in addressing
pixel-level prediction tasks such as semantic segmentation, depth estimation,
surface normal prediction, and so on, benefiting from their powerful
capabilities in visual representation learning. Typically, state-of-the-art
models integrates attention mechanisms for improved deep feature
representations. Recently, some works have demonstrated the significance of
learning and combining both spatial- and channel-wise attentions for deep
feature refinement. In this paper, we aim at effectively boosting previous
approaches and propose a unified deep framework to jointly learn both spatial
attention maps and channel attention vectors in a principled manner so as to
structure the resulting attention tensors and model interactions between these
two types of attentions. Specifically, we integrate the estimation and the
interaction of the attentions within a probabilistic representation learning
framework, leading to Variational STructured Attention networks (VISTA-Net). We
implement the inference rules within the neural network, thus allowing for
end-to-end learning of the probabilistic and the CNN front-end parameters. As
demonstrated by our extensive empirical evaluation on six large-scale datasets
for dense visual prediction, VISTA-Net outperforms the state-of-the-art in
multiple continuous and discrete prediction tasks, thus confirming the benefit
of the proposed approach in joint structured spatial-channel attention
estimation for deep representation learning. The code is available at
https://github.com/ygjwd12345/VISTA-Net.
- Abstract(参考訳): 畳み込みニューラルネットワークは、セマンティックセグメンテーション、深さ推定、表面正常予測など、ピクセルレベルの予測タスクへの対処において、その強力な視覚表現学習能力の恩恵を受ける大きな進歩を実現している。
通常、最先端のモデルは、深い特徴表現を改善するための注意メカニズムを統合します。
近年,深部特徴の洗練に空間的・チャネル的に注意を向け,学習することの重要性が実証されている。
本稿では,従来のアプローチを効果的に強化することを目的として,空間的注意マップとチャネル的注意ベクトルの両方を原則的に学習し,得られた注意テンソルとこれら2種類の注意の間のモデル相互作用を構築するための統合された深層フレームワークを提案する。
具体的には、確率的表現学習フレームワーク内での注目の推定と相互作用を統合し、Variational Structured Attention Network (VISTA-Net) につながります。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
密集した視覚予測のための6つの大規模データセットを広範囲に評価した結果、vista-netは連続的および離散的予測タスクにおいて最先端を上回り、深層表現学習のための統合的空間チャネル注意推定における提案手法の利点を実証した。
コードはhttps://github.com/ygjwd12345/VISTA-Netで入手できる。
関連論文リスト
- Influencer Detection with Dynamic Graph Neural Networks [56.1837101824783]
インフルエンサー検出のための動的グラフニューラルネットワーク(GNN)の構成について検討する。
GNNにおける深層多面的注意と時間特性の符号化が性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-11-15T13:00:25Z) - SR-GNN: Spatial Relation-aware Graph Neural Network for Fine-Grained
Image Categorization [24.286426387100423]
本稿では,最も関連性の高い画像領域からコンテキスト認識機能を集約することで,微妙な変化を捉える手法を提案する。
我々のアプローチは、近年の自己注意とグラフニューラルネットワーク(GNN)の発展にインスパイアされている。
これは、認識精度のかなりの差で最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-05T19:43:15Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - Semantic Reinforced Attention Learning for Visual Place Recognition [15.84086970453363]
大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-08-19T02:14:36Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Probabilistic Graph Attention Network with Conditional Kernels for
Pixel-Wise Prediction [158.88345945211185]
本稿では,画素レベルの予測を基本的側面,すなわち,技術の現状を推し進める新たなアプローチを提案する。
構造化されたマルチスケール機能学習と融合。
本論文では,マルチスケール表現を原理的に学習・融合するための新しいアテンテンションゲート条件ランダムフィールド(AG-CRFs)モデルに基づく確率的グラフアテンションネットワーク構造を提案する。
論文 参考訳(メタデータ) (2021-01-08T04:14:29Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。