論文の概要: X-ViT: High Performance Linear Vision Transformer without Softmax
- arxiv url: http://arxiv.org/abs/2205.13805v1
- Date: Fri, 27 May 2022 07:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:33:52.757882
- Title: X-ViT: High Performance Linear Vision Transformer without Softmax
- Title(参考訳): x-vit:softmaxのない高性能リニアビジョントランスフォーマ
- Authors: Jeonggeun Song, Heung-Chang Lee
- Abstract要約: 視覚変換器はコンピュータビジョンタスクにおいて最も重要なモデルの一つとなっている。
それらはトークンの数に二次的なスケールで重い計算資源を必要とし、$N$である。
本稿では,線形複雑性を持つ新しいSA機構を持つX-ViT, ViTを提案する。
- 参考スコア(独自算出の注目度): 1.6244541005112747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have become one of the most important models for computer
vision tasks. Although they outperform prior works, they require heavy
computational resources on a scale that is quadratic to the number of tokens,
$N$. This is a major drawback of the traditional self-attention (SA) algorithm.
Here, we propose the X-ViT, ViT with a novel SA mechanism that has linear
complexity. The main approach of this work is to eliminate nonlinearity from
the original SA. We factorize the matrix multiplication of the SA mechanism
without complicated linear approximation. By modifying only a few lines of code
from the original SA, the proposed models outperform most transformer-based
models on image classification and dense prediction tasks on most capacity
regimes.
- Abstract(参考訳): ビジョントランスフォーマーはコンピュータビジョンタスクにおいて最も重要なモデルの1つとなっている。
それらは以前の作業より優れているが、トークンの数に2倍のスケールで計算資源を要し、$N$である。
これは従来の自己注意(SA)アルゴリズムの大きな欠点である。
本稿では,線形複雑性を持つ新しいSA機構を持つX-ViT, ViTを提案する。
この研究の主なアプローチは、元のSAから非線形性を取り除くことである。
複雑な線形近似を伴わないSA機構の行列乗算を分解する。
元のSAからわずか数行のコードを変更することで、提案されたモデルは、ほとんどのキャパシティレギュレーションにおける画像分類と高密度予測タスクにおいて、ほとんどのトランスフォーマーベースモデルより優れている。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - UFO-ViT: High Performance Linear Vision Transformer without Softmax [0.0]
UFO-ViT(Unit Force Operated Vision Trnasformer)を提案する。
モデルは、ほとんどのキャパシティ・レシエーションを通して、画像分類と高密度予測タスクに関するほとんどのトランスフォーマーベースのモデルを達成する。
論文 参考訳(メタデータ) (2021-09-29T12:32:49Z) - Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。
また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-07-05T19:24:23Z) - THG: Transformer with Hyperbolic Geometry [8.895324519034057]
X-former"モデルは、自己注意の2次時間とメモリの複雑さにのみ変更を加える。
ユークリッド空間と双曲空間の両方の利点を生かした,双曲幾何モデル(THG)を提案する。
論文 参考訳(メタデータ) (2021-06-01T14:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。