論文の概要: ConvShareViT: Enhancing Vision Transformers with Convolutional Attention Mechanisms for Free-Space Optical Accelerators
- arxiv url: http://arxiv.org/abs/2504.11517v1
- Date: Tue, 15 Apr 2025 15:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:38:50.390469
- Title: ConvShareViT: Enhancing Vision Transformers with Convolutional Attention Mechanisms for Free-Space Optical Accelerators
- Title(参考訳): ConvShareViT:自由空間光加速器のための畳み込みアテンション機構を備えたビジョントランスの実現
- Authors: Riad Ibadulla, Thomas M. Chen, Constantino Carlos Reyes-Aldasoro,
- Abstract要約: 本稿では、4f自由空間光システムにビジョントランスフォーマー(ViT)を適応させる新しいディープラーニングアーキテクチャであるConvShareViTを紹介する。
ConvShareViTは、MHSA(Multi-head self-attention)とMLP(Multilayer Perceptrons)の線形層を、入力チャネル間の共有重みを持つ奥行き畳み込み層に置き換える。
結果は、ConvShareViTがGPUベースのシステムよりも最大3.04倍高速な推論を理論的に達成できることを実証している。
- 参考スコア(独自算出の注目度): 0.12289361708127873
- License:
- Abstract: This paper introduces ConvShareViT, a novel deep learning architecture that adapts Vision Transformers (ViTs) to the 4f free-space optical system. ConvShareViT replaces linear layers in multi-head self-attention (MHSA) and Multilayer Perceptrons (MLPs) with a depthwise convolutional layer with shared weights across input channels. Through the development of ConvShareViT, the behaviour of convolutions within MHSA and their effectiveness in learning the attention mechanism were analysed systematically. Experimental results demonstrate that certain configurations, particularly those using valid-padded shared convolutions, can successfully learn attention, achieving comparable attention scores to those obtained with standard ViTs. However, other configurations, such as those using same-padded convolutions, show limitations in attention learning and operate like regular CNNs rather than transformer models. ConvShareViT architectures are specifically optimised for the 4f optical system, which takes advantage of the parallelism and high-resolution capabilities of optical systems. Results demonstrate that ConvShareViT can theoretically achieve up to 3.04 times faster inference than GPU-based systems. This potential acceleration makes ConvShareViT an attractive candidate for future optical deep learning applications and proves that our ViT (ConvShareViT) can be employed using only the convolution operation, via the necessary optimisation of the ViT to balance performance and complexity.
- Abstract(参考訳): 本稿では、4f自由空間光システムにビジョントランスフォーマー(ViT)を適応させる新しいディープラーニングアーキテクチャであるConvShareViTを紹介する。
ConvShareViTは、MHSA(Multi-head self-attention)とMLP(Multilayer Perceptrons)の線形層を、入力チャネル間の共有重みを持つ奥行き畳み込み層に置き換える。
ConvShareViTの開発を通じて、MHSA内の畳み込みの挙動と注意機構の学習における効果を体系的に分析した。
実験結果から,特定の構成,特に有効パッド付き共有畳み込みを用いた構成は,標準的なViTと同等の注意点を達成できることがわかった。
しかし、同じパッドを持つ畳み込みを使用するような他の構成は、注意学習の限界を示し、トランスフォーマーモデルではなく通常のCNNのように動作する。
ConvShareViTアーキテクチャは、光システムの並列性と高解像度機能を利用する4f光システムのために、特に最適化されている。
結果は、ConvShareViTがGPUベースのシステムよりも最大3.04倍高速な推論を理論的に達成できることを実証している。
このポテンシャル加速により、ConvShareViTは将来の光深層学習アプリケーションにとって魅力的な候補となり、我々のViT(ConvShareViT)が性能と複雑さのバランスをとるために必要となるViTの最適化によって、畳み込み操作のみを使用することが証明された。
関連論文リスト
- ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - EViT: An Eagle Vision Transformer with Bi-Fovea Self-Attention [5.813760119694438]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて印象的な性能を示した。
これらの問題を緩和するため、イーグルビジョンとViTの組み合わせによる潜在的な利点について検討した。
論文 参考訳(メタデータ) (2023-10-10T13:48:18Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Sequencer: Deep LSTM for Image Classification [0.0]
最近のコンピュータビジョン研究において、ViT(Vision Transformer)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした。
提案するSequencerは,ViTに代わる,斬新で競争力のあるアーキテクチャである。
その単純さにもかかわらず、いくつかの実験はSequencerが素晴らしい性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-04T09:47:46Z) - Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels [7.426118390008397]
画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。
これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-04-11T07:10:58Z) - Can Vision Transformers Perform Convolution? [78.42076260340869]
画像パッチを入力とする単一のViT層が任意の畳み込み操作を構成的に実行可能であることを示す。
我々は、CNNを表現するビジョントランスフォーマーのヘッド数を低くする。
論文 参考訳(メタデータ) (2021-11-02T03:30:17Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference [25.63398340113755]
高速システムにおける精度と効率のトレードオフを最適化する画像分類アーキテクチャのファミリーを設計します。
視覚変換器に位置情報を統合する新しい手法である注意バイアスを導入する。
全体として、LeViTは、スピード/精度のトレードオフに関して、既存のコンベットとビジョントランスを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-02T16:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。