論文の概要: Attention mechanisms and deep learning for machine vision: A survey of
the state of the art
- arxiv url: http://arxiv.org/abs/2106.07550v1
- Date: Thu, 3 Jun 2021 10:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 16:09:24.690814
- Title: Attention mechanisms and deep learning for machine vision: A survey of
the state of the art
- Title(参考訳): 機械学習のための注意メカニズムと深層学習--最先端技術に関する調査から
- Authors: Abdul Mueed Hafiz, Shabir Ahmad Parah, Rouf Ul Alam Bhat
- Abstract要約: ビジョントランスフォーマー(ViT)は、確立されたディープラーニングベースのマシンビジョン技術にかなり挑戦している。
いくつかの最近の研究は、これらの2つの異なるフィールドの組み合わせが、両方のフィールドの利点を持つシステムを構築することを証明することを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of state of the art nature-inspired pure attention based
models i.e. transformers, and their success in natural language processing
(NLP), their extension to machine vision (MV) tasks was inevitable and much
felt. Subsequently, vision transformers (ViTs) were introduced which are giving
quite a challenge to the established deep learning based machine vision
techniques. However, pure attention based models/architectures like
transformers require huge data, large training times and large computational
resources. Some recent works suggest that combinations of these two varied
fields can prove to build systems which have the advantages of both these
fields. Accordingly, this state of the art survey paper is introduced which
hopefully will help readers get useful information about this interesting and
potential research area. A gentle introduction to attention mechanisms is
given, followed by a discussion of the popular attention based deep
architectures. Subsequently, the major categories of the intersection of
attention mechanisms and deep learning for machine vision (MV) based are
discussed. Afterwards, the major algorithms, issues and trends within the scope
of the paper are discussed.
- Abstract(参考訳): state of the art natureにインスパイアされた純粋な注意に基づくモデルが出現した。
トランスフォーマーと自然言語処理(NLP)の成功、機械ビジョン(MV)タスクの拡張は避けられず、多くの感覚を持っていた。
その後、視覚変換器(ViT)を導入し、確立されたディープラーニングベースのマシンビジョン技術に挑戦している。
しかし、トランスフォーマーのような純粋な注意に基づくモデル/アーキテクチャは、膨大なデータ、大きなトレーニング時間、巨大な計算リソースを必要とする。
最近の研究では、これら2つの異なる分野の組み合わせが、これらの分野の両方の利点を持つシステムを構築できることが示されている。
そこで,本論文では,読者が興味深く,潜在的に有望な研究領域に関する情報を得られることを期待する。
注意機構の穏やかな紹介に続いて、一般的な注目に基づくディープアーキテクチャの議論が行われる。
その後,機械ビジョン(MV)に基づく注意機構と深層学習の主なカテゴリについて論じる。
その後,論文の範囲内の主要なアルゴリズム,課題,傾向について考察した。
関連論文リスト
- Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights [5.798431829723857]
本稿では、視覚変換器(ViT)ネットワークにおける注意機構の設計手法と洞察を包括的に探求する。
再設計したアプローチを応用した,ViT内の様々な注意機構の系統分類法を提案する。
この分析には、新規性、強み、弱み、そして提案された様々な戦略の詳細な評価が含まれる。
論文 参考訳(メタデータ) (2024-03-28T23:31:59Z) - Integration and Performance Analysis of Artificial Intelligence and
Computer Vision Based on Deep Learning Algorithms [5.734290974917728]
本稿では,ディープラーニングとコンピュータビジョン技術の統合による応用効果の分析に焦点をあてる。
ディープラーニングは階層型ニューラルネットワークを構築することで歴史的なブレークスルーを実現し、エンドツーエンドの機能学習と画像の意味的理解を可能にする。
コンピュータビジョンの分野で成功した経験は、ディープラーニングアルゴリズムのトレーニングに強力なサポートを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:37:06Z) - Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks [0.0]
Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。
さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
論文 参考訳(メタデータ) (2023-10-04T21:09:19Z) - Review of Large Vision Models and Visual Prompt Engineering [50.63394642549947]
レビューは、大きな視覚モデルと視覚プロンプトエンジニアリングのためにコンピュータビジョン領域で使用される手法を要約することを目的としている。
本稿では、視覚領域における影響力のある大規模モデルと、これらのモデルに使用される一連のプロンプトエンジニアリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-03T08:48:49Z) - AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Can machines learn to see without visual databases? [93.73109506642112]
本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
論文 参考訳(メタデータ) (2021-10-12T13:03:54Z) - Threat of Adversarial Attacks on Deep Learning in Computer Vision:
Survey II [86.51135909513047]
ディープラーニングは、予測を操作できる敵攻撃に対して脆弱である。
本稿では,ディープラーニングに対する敵対的攻撃におけるコンピュータビジョンコミュニティの貢献を概観する。
この領域では、非専門家に技術的な用語の定義を提供する。
論文 参考訳(メタデータ) (2021-08-01T08:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。