Fugu-MT 論文翻訳(概要): SeTformer is What You Need for Vision and Language

論文の概要: SeTformer is What You Need for Vision and Language

arxiv url: http://arxiv.org/abs/2401.03540v1
Date: Sun, 7 Jan 2024 16:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 18:29:59.724460
Title: SeTformer is What You Need for Vision and Language
Title（参考訳）: SeTformerはビジョンと言語に必要なもの
Authors: Pourya Shamsolmoali, Masoumeh Zareapoor, Eric Granger, Michael Felsberg
Abstract要約: 自己最適化輸送(SeT)は、より良い性能と計算効率を実現するための新しいトランスフォーマーである。 SeTformerは、ImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。 SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。
参考スコア（独自算出の注目度）: 26.036537788653373
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The dot product self-attention (DPSA) is a fundamental component of transformers. However, scaling them to long sequences, like documents or high-resolution images, becomes prohibitively expensive due to quadratic time and memory complexities arising from the softmax operation. Kernel methods are employed to simplify computations by approximating softmax but often lead to performance drops compared to softmax attention. We propose SeTformer, a novel transformer, where DPSA is purely replaced by Self-optimal Transport (SeT) for achieving better performance and computational efficiency. SeT is based on two essential softmax properties: maintaining a non-negative attention matrix and using a nonlinear reweighting mechanism to emphasize important tokens in input sequences. By introducing a kernel cost function for optimal transport, SeTformer effectively satisfies these properties. In particular, with small and basesized models, SeTformer achieves impressive top-1 accuracies of 84.7% and 86.2% on ImageNet-1K. In object detection, SeTformer-base outperforms the FocalNet counterpart by +2.2 mAP, using 38% fewer parameters and 29% fewer FLOPs. In semantic segmentation, our base-size model surpasses NAT by +3.5 mIoU with 33% fewer parameters. SeTformer also achieves state-of-the-art results in language modeling on the GLUE benchmark. These findings highlight SeTformer's applicability in vision and language tasks.
Abstract（参考訳）: ドット積自己注意(DPSA)は変圧器の基本成分である。しかし、文書や高解像度画像のような長いシーケンスにスケールすることは、ソフトマックス操作から生じる二次時間とメモリの複雑さのために、非常に高価になる。カーネル法はソフトマックスを近似することで計算を単純化するために用いられるが、ソフトマックスの注意よりも性能低下につながることが多い。そこで本研究では,dpsaを純粋に自己最適化トランスポート(set)に置き換え,性能と計算効率を向上させる新しいトランスフォーマーであるsetformerを提案する。 SeTは、非負の注意行列を維持し、非線形再重み付け機構を用いて入力シーケンスにおける重要なトークンを強調する。最適な転送のためにカーネルコスト関数を導入することで、setformerはこれらの特性を効果的に満たす。特に、小型でベースサイズのモデルでは、SeTformerはImageNet-1Kで84.7%、86.2%という印象的なトップ1アキュラシーを達成した。オブジェクト検出では、SeTformer-baseはFocalNetよりも+2.2 mAPで、38%のパラメータと29%のFLOPを使用する。セマンティックセグメンテーションでは, NAT を +3.5 mIoU で上回り, パラメータは 33% 少ない。 SeTformerはGLUEベンチマークで言語モデリングの最先端の結果も達成している。これらの知見は、SeTformerの視覚および言語タスクへの適用性を強調している。

関連論文リスト

Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。 6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文参考訳（メタデータ） (2025-02-28T22:34:22Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。実験の結果,PiToMeはベースモデルの40～60%のFLOPから保存されていた。
論文参考訳（メタデータ） (2024-05-25T09:37:01Z)
ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。 ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文参考訳（メタデータ） (2024-03-22T07:32:21Z)
SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification [14.559316921646356]
下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。 SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
論文参考訳（メタデータ） (2023-12-16T07:44:52Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Efficient Context Integration through Factorized Pyramidal Learning for Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。 FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文参考訳（メタデータ） (2023-02-23T05:34:51Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文参考訳（メタデータ） (2022-11-09T18:50:38Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。 1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文参考訳（メタデータ） (2022-06-21T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。