Fugu-MT 論文翻訳(概要): UFO-ViT: High Performance Linear Vision Transformer without Softmax

論文の概要: UFO-ViT: High Performance Linear Vision Transformer without Softmax

arxiv url: http://arxiv.org/abs/2109.14382v1
Date: Wed, 29 Sep 2021 12:32:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-30 18:20:30.969446
Title: UFO-ViT: High Performance Linear Vision Transformer without Softmax
Title（参考訳）: ufo-vit:softmaxのない高性能リニアビジョントランスフォーマー
Authors: Jeong-geun Song
Abstract要約: UFO-ViT(Unit Force Operated Vision Trnasformer)を提案する。モデルは、ほとんどのキャパシティ・レシエーションを通して、画像分類と高密度予測タスクに関するほとんどのトランスフォーマーベースのモデルを達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision transformers have become one of the most important models for computer vision tasks. While they outperform earlier convolutional networks, the complexity quadratic to $N$ is one of the major drawbacks when using traditional self-attention algorithms. Here we propose the UFO-ViT(Unit Force Operated Vision Trnasformer), novel method to reduce the computations of self-attention by eliminating some non-linearity. Modifying few of lines from self-attention, UFO-ViT achieves linear complexity without the degradation of performance. The proposed models outperform most transformer-based models on image classification and dense prediction tasks through most capacity regime.
Abstract（参考訳）: ビジョントランスフォーマーはコンピュータビジョンタスクにおいて最も重要なモデルの1つとなっている。それらは初期の畳み込みネットワークを上回っているが、複雑さは従来の自己追跡アルゴリズムを使用する際の大きな欠点の1つだ。本稿では,UFO-ViT(Unit Force Operated Vision Trnasformer)を提案する。 ufo-vitは自己着脱による行数をほとんど変更せず、性能の低下を伴わずに線形複雑性を達成する。提案手法は,画像分類と密集した予測タスクにおいて,ほとんどのトランスフォーマティブモデルに勝っている。

関連論文リスト

ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文参考訳（メタデータ） (2025-04-21T03:00:17Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得たグローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文参考訳（メタデータ） (2024-04-17T11:25:19Z)
PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。 ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文参考訳（メタデータ） (2023-10-06T21:45:05Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
How to Train Vision Transformer on Small-scale Datasets? [4.56717163175988]
畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。自己教師付き帰納バイアスは,小規模データセットから直接学習可能であることを示す。これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。
論文参考訳（メタデータ） (2022-10-13T17:59:19Z)
Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文参考訳（メタデータ） (2022-06-21T17:33:53Z)
X-ViT: High Performance Linear Vision Transformer without Softmax [1.6244541005112747]
視覚変換器はコンピュータビジョンタスクにおいて最も重要なモデルの一つとなっている。それらはトークンの数に二次的なスケールで重い計算資源を必要とし、$N$である。本稿では,線形複雑性を持つ新しいSA機構を持つX-ViT, ViTを提案する。
論文参考訳（メタデータ） (2022-05-27T07:47:22Z)
ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文参考訳（メタデータ） (2021-10-08T06:32:05Z)
Vision Xformers: Efficient Attention for Image Classification [0.0]
我々は、2次注意を効率的な変換器に置き換えることで、より長いシーケンスデータを扱うためにViTアーキテクチャを変更した。また,より少ない計算資源を消費する画像分類において,ViXはViTよりも優れた性能を示す。
論文参考訳（メタデータ） (2021-07-05T19:24:23Z)
Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文参考訳（メタデータ） (2021-04-26T13:13:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。