論文の概要: ViT-LCA: A Neuromorphic Approach for Vision Transformers
- arxiv url: http://arxiv.org/abs/2411.00140v1
- Date: Thu, 31 Oct 2024 18:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:35.459944
- Title: ViT-LCA: A Neuromorphic Approach for Vision Transformers
- Title(参考訳): ViT-LCA : 視覚変換器のニューロモルフィックアプローチ
- Authors: Sanaz Mahmoodi Takaghaj,
- Abstract要約: 本稿では、視覚変換器と局所競合アルゴリズム(LCA)を組み合わせて、効率的なニューロモルフィック展開を容易にする新しいモデルを提案する。
実験の結果、VT-LCAはImageNet-1Kデータセット上で高い精度を実現し、他のスパイキング視覚変換器よりもはるかに少ないエネルギーを消費することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The recent success of Vision Transformers has generated significant interest in attention mechanisms and transformer architectures. Although existing methods have proposed spiking self-attention mechanisms compatible with spiking neural networks, they often face challenges in effective deployment on current neuromorphic platforms. This paper introduces a novel model that combines vision transformers with the Locally Competitive Algorithm (LCA) to facilitate efficient neuromorphic deployment. Our experiments show that ViT-LCA achieves higher accuracy on ImageNet-1K dataset while consuming significantly less energy than other spiking vision transformer counterparts. Furthermore, ViT-LCA's neuromorphic-friendly design allows for more direct mapping onto current neuromorphic architectures.
- Abstract(参考訳): 近年のVision Transformersの成功は、注意機構やトランスフォーマーアーキテクチャに大きな関心を惹き付けている。
既存の方法は、スパイクニューラルネットワークと互換性のあるスパイク自己注意機構を提案するが、それらはしばしば、現在のニューロモルフィックプラットフォームに効果的に展開する際の課題に直面している。
本稿では、視覚変換器と局所競合アルゴリズム(LCA)を組み合わせて、効率的なニューロモルフィック展開を容易にする新しいモデルを提案する。
実験の結果、VT-LCAはImageNet-1Kデータセット上で高い精度を実現し、他のスパイキング視覚変換器よりもはるかに少ないエネルギーを消費することがわかった。
さらに、ViT-LCAのニューロモルフィックフレンドリーな設計は、現在のニューロモルフィックアーキテクチャへのより直接的なマッピングを可能にする。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - ModeT: Learning Deformable Image Registration via Motion Decomposition
Transformer [7.629385629884155]
本稿では,複数のモーダルを明示的にモデル化する新しい動作分解変換器 (ModeT) を提案する。
提案手法は,現状の登録ネットワークやトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2023-06-09T06:00:05Z) - A survey of the Vision Transformers and their CNN-Transformer based Variants [0.48163317476588563]
ビジョントランスフォーマーは、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワーク(CNN)の代替として人気がある。
これらのトランスフォーマーは、画像のグローバルな関係にフォーカスする能力を持ち、大きな学習能力を提供する。
近年,視覚変換器による畳み込み操作と自己認識機構のハイブリッド化が出現し,局所的およびグローバルな画像表現の両面を利用した。
論文 参考訳(メタデータ) (2023-05-17T01:27:27Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。