論文の概要: Element-Wise Attention Layers: an option for optimization
- arxiv url: http://arxiv.org/abs/2302.05488v1
- Date: Fri, 10 Feb 2023 19:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 20:16:09.788032
- Title: Element-Wise Attention Layers: an option for optimization
- Title(参考訳): Element-Wise Attention Layers:最適化のためのオプション
- Authors: Giovanni Araujo Bacochina, Rodrigo Clemente Thom de Souza
- Abstract要約: 配列乗算を用いることで,Dot-Product Attentionを要素ワイズに適応させる新しいアテンション機構を提案する。
結果は、このメカニズムにより、Fashion MNISTデータセットのVGGライクなデータセットの92%の精度が得られ、パラメータの数を97%削減できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of Attention Layers has become a trend since the popularization of
the Transformer-based models, being the key element for many state-of-the-art
models that have been developed through recent years. However, one of the
biggest obstacles in implementing these architectures - as well as many others
in Deep Learning Field - is the enormous amount of optimizing parameters they
possess, which make its use conditioned on the availability of robust hardware.
In this paper, it's proposed a new method of attention mechanism that adapts
the Dot-Product Attention, which uses matrices multiplications, to become
element-wise through the use of arrays multiplications. To test the
effectiveness of such approach, two models (one with a VGG-like architecture
and one with the proposed method) have been trained in a classification task
using Fashion MNIST and CIFAR10 datasets. Each model has been trained for 10
epochs in a single Tesla T4 GPU from Google Colaboratory. The results show that
this mechanism allows for an accuracy of 92% of the VGG-like counterpart in
Fashion MNIST dataset, while reducing the number of parameters in 97%. For
CIFAR10, the accuracy is still equivalent to 60% of the VGG-like counterpart
while using 50% less parameters.
- Abstract(参考訳): Attention Layersの使用はTransformerベースのモデルの普及以来トレンドとなり、近年まで開発されてきた多くの最先端モデルのキー要素となっている。
しかし、これらのアーキテクチャを実装する上での最大の障害の1つは、Deep Learning Fieldの他の多くのものと同様に、それらが持つ膨大な量の最適化パラメータであり、堅牢なハードウェアの可用性を前提としている。
本稿では,行列乗算を用いたDot-Product Attentionに適応し,配列乗算を用いて要素単位となる新しいアテンション機構を提案する。
このような手法の有効性を検証するため、Fashion MNISTとCIFAR10データセットを用いた分類作業において、2つのモデル(VGG様アーキテクチャと提案手法)を訓練した。
各モデルは、google colaboratoryから1つのtesla t4 gpuで10エポックのトレーニングを受けた。
結果は、このメカニズムにより、Fashion MNISTデータセットのVGGに似た92%の精度が得られ、パラメータの数を97%削減できることを示している。
CIFAR10 の場合、精度は VGG の 60% に相当し、パラメータは 50% 少ない。
関連論文リスト
- SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors [80.6043267994434]
既存の手法と根本的に異なる単純なアプローチであるSVFTを提案する。
SVFTは特異ベクトルの外積のスパース結合として(W)を更新し、これらのスパース結合の係数(スケール)のみを訓練する。
言語とビジョンベンチマークの実験では、SVFTは完全な微調整性能の96%を回復し、パラメータの0.006から0.25%しかトレーニングしていない。
論文 参考訳(メタデータ) (2024-05-30T01:27:43Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Model Composition: Can Multiple Neural Networks Be Combined into a
Single Network Using Only Unlabeled Data? [6.0945220518329855]
本稿では,ラベルなしデータを用いた複数のトレーニングニューラルネットワークの組み合わせについて検討する。
提案手法は, ラベルのないデータから収集した疑似ラベルの生成, フィルタリング, 集約を利用する。
本手法は任意のアーキテクチャとカテゴリを持つ任意の入力モデルの使用をサポートする。
論文 参考訳(メタデータ) (2021-10-20T04:17:25Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - NSGANetV2: Evolutionary Multi-Objective Surrogate-Assisted Neural
Architecture Search [22.848528877480796]
複数の競合対象下で競合するタスク固有モデルを生成するための効率的なNASアルゴリズムを提案する。
2つのサロゲートで構成され、1つはサンプル効率を改善するためにアーキテクチャレベルで、1つはスーパーネットを介して重量レベルで、勾配降下訓練効率を改善する。
提案手法の有効性と汎用性を6つの非標準データセットで示す。
論文 参考訳(メタデータ) (2020-07-20T18:30:11Z) - CoDeNet: Efficient Deployment of Input-Adaptive Object Detection on
Embedded FPGAs [41.43273142203345]
FPGAの柔軟性を利用して、変形可能な畳み込みを伴う新しいオブジェクト検出パイプラインを開発する。
高効率実装では、ソリューションは毎秒26.9フレームに達し、小さなモデルサイズは0.76MBである。
我々のモデルはPascal VOCで67.1 AP50に達し、パラメータは20.9倍小さいがTiny-YOLOより10%正確である。
論文 参考訳(メタデータ) (2020-06-12T17:56:47Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。