論文の概要: Replacing softmax with ReLU in Vision Transformers
- arxiv url: http://arxiv.org/abs/2309.08586v2
- Date: Tue, 17 Oct 2023 00:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 20:39:25.415151
- Title: Replacing softmax with ReLU in Vision Transformers
- Title(参考訳): 視覚トランスフォーマーにおけるsoftmaxをreluに置き換える
- Authors: Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith
- Abstract要約: 視覚変換器では、この劣化はシーケンス長で分割した場合に緩和される。
ImageNet-21kで小型から大型の視覚変換器を訓練した結果,ReLUアテンションがソフトマックスアテンションの性能に近づいたり適合したりできることがわかった。
- 参考スコア(独自算出の注目度): 37.09821905126928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous research observed accuracy degradation when replacing the attention
softmax with a point-wise activation such as ReLU. In the context of vision
transformers, we find that this degradation is mitigated when dividing by
sequence length. Our experiments training small to large vision transformers on
ImageNet-21k indicate that ReLU-attention can approach or match the performance
of softmax-attention in terms of scaling behavior as a function of compute.
- Abstract(参考訳): 従来の研究では、注意ソフトマックスをReLUのようなポイントワイドアクティベーションに置き換える際の精度劣化が観察された。
視覚トランスフォーマーの文脈では、シーケンス長で分割するとこの劣化が軽減される。
我々はImageNet-21kで小型から大型の視覚変換器を訓練し、ReLUアテンションが計算関数としてのスケーリング動作においてソフトマックスアテンションの性能に近づいたり適合できることを示した。
関連論文リスト
- Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。
また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-05T19:24:23Z) - Adaptive Transformers in RL [6.292138336765965]
トランスフォーマーの最近の進歩は、部分的に観察可能な強化学習タスクにおける新しい研究領域を開拓している。
2019年後半に行われた結果によると、Transformerは、メモリの激しいタスクとリアクティブタスクの両方において、LSTMを上回るパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-04-08T01:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。