論文の概要: Attention Mechanisms in Computer Vision: A Survey
- arxiv url: http://arxiv.org/abs/2111.07624v1
- Date: Mon, 15 Nov 2021 09:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 16:12:44.493153
- Title: Attention Mechanisms in Computer Vision: A Survey
- Title(参考訳): コンピュータビジョンにおける注意メカニズム:調査
- Authors: Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao
Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng,
Shi-Min Hu
- Abstract要約: 本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
- 参考スコア(独自算出の注目度): 75.6074182122423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can naturally and effectively find salient regions in complex scenes.
Motivated by this observation, attention mechanisms were introduced into
computer vision with the aim of imitating this aspect of the human visual
system. Such an attention mechanism can be regarded as a dynamic weight
adjustment process based on features of the input image. Attention mechanisms
have achieved great success in many visual tasks, including image
classification, object detection, semantic segmentation, video understanding,
image generation, 3D vision, multi-modal tasks and self-supervised learning. In
this survey, we provide a comprehensive review of various attention mechanisms
in computer vision and categorize them according to approach, such as channel
attention, spatial attention, temporal attention and branch attention; a
related repository https://github.com/MenghaoGuo/Awesome-Vision-Attentions is
dedicated to collecting related work. We also suggest future directions for
attention mechanism research.
- Abstract(参考訳): 人間は複雑な場面で自然かつ効果的に健全な領域を見つけることができる。
この観察により、人間の視覚システムのこの側面を模倣する目的で、注意機構がコンピュータビジョンに導入された。
このような注意機構は、入力画像の特徴に基づく動的重み調整処理と見なすことができる。
画像分類、オブジェクト検出、意味セグメンテーション、ビデオ理解、画像生成、3dビジョン、マルチモーダルタスク、自己教師付き学習など、多くの視覚タスクで注目のメカニズムが大きな成功を収めている。
本稿では,コンピュータビジョンにおける様々な注意機構の包括的レビューを行い,チャネルの注意,空間的注意,時間的注意,分岐的注意といったアプローチに基づいて分類する。
また,注意メカニズム研究の今後の方向性についても提案する。
関連論文リスト
- Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights [5.798431829723857]
本稿では、視覚変換器(ViT)ネットワークにおける注意機構の設計手法と洞察を包括的に探求する。
再設計したアプローチを応用した,ViT内の様々な注意機構の系統分類法を提案する。
この分析には、新規性、強み、弱み、そして提案された様々な戦略の詳細な評価が含まれる。
論文 参考訳(メタデータ) (2024-03-28T23:31:59Z) - Recent Advances of Local Mechanisms in Computer Vision: A Survey and
Outlook of Recent Work [48.69845068325126]
ローカルメカニズムはコンピュータビジョンの開発を促進するように設計されている。
識別的局所表現を学習するために対象部品に焦点を合わせるだけでなく、効率を向上させるために選択的に情報を処理することができる。
本稿では,様々なコンピュータビジョンタスクやアプローチの局所的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2023-06-02T22:05:52Z) - Self-attention in Vision Transformers Performs Perceptual Grouping, Not
Attention [11.789983276366986]
視覚変換器の注意機構は人間の視覚的注意と同様の効果を示す。
その結果,色などの視覚的特徴の類似性から,自己注意モジュール群が刺激に現れることが示唆された。
単トン検出実験において、これらのモデルが人間の視覚的注意に利用されるフィードフォワード視覚的サリエンス機構と類似した効果を示すかどうかを検討した。
論文 参考訳(メタデータ) (2023-03-02T19:18:11Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - GAMR: A Guided Attention Model for (visual) Reasoning [7.919213739992465]
人間は、複雑な視覚シーンを柔軟に解析し理解する能力において、現代のAIシステムよりも優れています。
視覚的推論のための新しいモジュール,(視覚的)推論のためのガイド付き注意モデル(GAMR)を提案する。
GAMRは、タスク関連視覚情報をメモリに選択してルーティングするために、注意シフトのシーケンスを通じて、脳が複雑な視覚的推論問題を動的に解くことを示唆している。
論文 参考訳(メタデータ) (2022-06-10T07:52:06Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。