論文の概要: SeTformer is What You Need for Vision and Language
- arxiv url: http://arxiv.org/abs/2401.03540v1
- Date: Sun, 7 Jan 2024 16:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:29:59.724460
- Title: SeTformer is What You Need for Vision and Language
- Title(参考訳): SeTformerはビジョンと言語に必要なもの
- Authors: Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, Michael
Felsberg
- Abstract要約: 自己最適化輸送(SeT)は、より良い性能と計算効率を実現するための新しいトランスフォーマーである。
SeTformerは、ImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。
SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
- 参考スコア(独自算出の注目度): 26.036537788653373
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The dot product self-attention (DPSA) is a fundamental component of
transformers. However, scaling them to long sequences, like documents or
high-resolution images, becomes prohibitively expensive due to quadratic time
and memory complexities arising from the softmax operation. Kernel methods are
employed to simplify computations by approximating softmax but often lead to
performance drops compared to softmax attention. We propose SeTformer, a novel
transformer, where DPSA is purely replaced by Self-optimal Transport (SeT) for
achieving better performance and computational efficiency. SeT is based on two
essential softmax properties: maintaining a non-negative attention matrix and
using a nonlinear reweighting mechanism to emphasize important tokens in input
sequences. By introducing a kernel cost function for optimal transport,
SeTformer effectively satisfies these properties. In particular, with small and
basesized models, SeTformer achieves impressive top-1 accuracies of 84.7% and
86.2% on ImageNet-1K. In object detection, SeTformer-base outperforms the
FocalNet counterpart by +2.2 mAP, using 38% fewer parameters and 29% fewer
FLOPs. In semantic segmentation, our base-size model surpasses NAT by +3.5 mIoU
with 33% fewer parameters. SeTformer also achieves state-of-the-art results in
language modeling on the GLUE benchmark. These findings highlight SeTformer's
applicability in vision and language tasks.
- Abstract(参考訳): ドット積自己注意(DPSA)は変圧器の基本成分である。
しかし、文書や高解像度画像のような長いシーケンスにスケールすることは、ソフトマックス操作から生じる二次時間とメモリの複雑さのために、非常に高価になる。
カーネル法はソフトマックスを近似することで計算を単純化するために用いられるが、ソフトマックスの注意よりも性能低下につながることが多い。
そこで本研究では,dpsaを純粋に自己最適化トランスポート(set)に置き換え,性能と計算効率を向上させる新しいトランスフォーマーであるsetformerを提案する。
SeTは、非負の注意行列を維持し、非線形再重み付け機構を用いて入力シーケンスにおける重要なトークンを強調する。
最適な転送のためにカーネルコスト関数を導入することで、setformerはこれらの特性を効果的に満たす。
特に、小型でベースサイズのモデルでは、SeTformerはImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。
オブジェクト検出では、SeTformer-baseはFocalNetよりも+2.2 mAPで、38%のパラメータと29%のFLOPを使用する。
セマンティックセグメンテーションでは, NAT を +3.5 mIoU で上回り, パラメータは 33% 少ない。
SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
これらの知見は、SeTformerの視覚および言語タスクへの適用性を強調している。
関連論文リスト
- SPT: Fine-Tuning Transformer-based Language Models Efficiently with
Sparsification [14.559316921646356]
下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。
本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。
SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
論文 参考訳(メタデータ) (2023-12-16T07:44:52Z) - E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D
Medical Image Segmentation [36.367368163120794]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image
Segmentation [98.90623605283564]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。