論文の概要: Visual Attention Methods in Deep Learning: An In-Depth Survey
- arxiv url: http://arxiv.org/abs/2204.07756v3
- Date: Sun, 5 May 2024 18:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 03:49:02.128527
- Title: Visual Attention Methods in Deep Learning: An In-Depth Survey
- Title(参考訳): 深層学習における視覚的注意方法:深部調査
- Authors: Mohammed Hassanin, Saeed Anwar, Ibrahim Radwan, Fahad S Khan, Ajmal Mian,
- Abstract要約: 人間の認知システムにインスパイアされた注意は、特定の情報に対する人間の認知意識を模倣するメカニズムである。
ディープラーニングは多くのアプリケーションのパフォーマンス向上に注意を払っています。
この文献は、深層モデルに注意を向ける研究者を導くための注意技術に関する包括的な調査を欠いている。
- 参考スコア(独自算出の注目度): 37.18104595529633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the human cognitive system, attention is a mechanism that imitates the human cognitive awareness about specific information, amplifying critical details to focus more on the essential aspects of data. Deep learning has employed attention to boost performance for many applications. Interestingly, the same attention design can suit processing different data modalities and can easily be incorporated into large networks. Furthermore, multiple complementary attention mechanisms can be incorporated into one network. Hence, attention techniques have become extremely attractive. However, the literature lacks a comprehensive survey on attention techniques to guide researchers in employing attention in their deep models. Note that, besides being demanding in terms of training data and computational resources, transformers only cover a single category in self-attention out of the many categories available. We fill this gap and provide an in-depth survey of 50 attention techniques, categorizing them by their most prominent features. We initiate our discussion by introducing the fundamental concepts behind the success of the attention mechanism. Next, we furnish some essentials such as the strengths and limitations of each attention category, describe their fundamental building blocks, basic formulations with primary usage, and applications specifically for computer vision. We also discuss the challenges and general open questions related to attention mechanisms. Finally, we recommend possible future research directions for deep attention. All the information about visual attention methods in deep learning is provided at \href{https://github.com/saeed-anwar/VisualAttention}{https://github.com/saeed-anwar/VisualAttention}
- Abstract(参考訳): 人間の認知システムにインスパイアされた注意は、特定の情報に対する人間の認知意識を模倣し、重要な詳細を増幅し、データの本質的な側面に焦点を当てるメカニズムである。
ディープラーニングは多くのアプリケーションのパフォーマンス向上に注意を払っています。
興味深いことに、同じアテンション設計は異なるデータモダリティを処理するのに適しており、簡単に大きなネットワークに組み込むことができる。
さらに、複数の補完的注意機構を1つのネットワークに組み込むことができる。
そのため、注目の技は極めて魅力的になってきている。
しかし、この文献は、深層モデルに注意を向ける研究者を導くための注意技術に関する包括的な調査を欠いている。
注意すべき点は、トレーニングデータと計算資源の面で要求されていることに加えて、トランスフォーマーは利用可能な多くのカテゴリのうち、単一のカテゴリのみを自己注意でカバーしていることだ。
このギャップを埋め、最も顕著な特徴によって分類し、50の注意技法の詳細な調査を行う。
注意機構の成功の背景にある基本的な概念を導入することで議論を始める。
次に,各注目カテゴリーの強みや限界,基本的構成要素,一次利用による基本的定式化,特にコンピュータビジョンへの応用について述べる。
また、注意機構に関する課題や一般のオープンな質問についても論じる。
最後に,今後の研究の方向性を深く検討することを推奨する。
ディープラーニングにおける視覚的注意法に関するすべての情報は、 \href{https://github.com/saeed-anwar/VisualAttention}{https://github.com/saeed-anwar/VisualAttention} で提供されている。
関連論文リスト
- Learning to mask: Towards generalized face forgery detection [3.7755650136637304]
フェースフォージェリ検出器にとって、偽造の見当たらない型に対する一般化性は不可欠である。
私たちの目標は、トレーニングフェーズで簡単に学習できる機能を減らすことで、特定のフォージェリータイプに過度に適合するリスクを減らすことです。
機能領域の偽造を合成するために、深い機能混在戦略も提案されている。
論文 参考訳(メタデータ) (2022-12-29T13:55:28Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Attention, please! A survey of Neural Attention Models in Deep Learning [0.0]
ディープラーニングの最先端は、いくつかのアプリケーションドメインの神経注意モデルによって表されます。
この調査は、神経注意モデルの発展の包括的な概要と分析を提供します。
論文 参考訳(メタデータ) (2021-03-31T02:42:28Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。