論文の概要: Efficient Visual Transformer by Learnable Token Merging
- arxiv url: http://arxiv.org/abs/2407.15219v1
- Date: Sun, 21 Jul 2024 17:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 18:49:14.247362
- Title: Efficient Visual Transformer by Learnable Token Merging
- Title(参考訳): 学習型トーケンマージによる高能率視覚変換器
- Authors: Yancheng Wang, Yingzhen Yang,
- Abstract要約: 本稿では,Learable Token Merging (LTM) または LTM-Transformer を用いた新しい変圧器ブロックを提案する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性がある。
コンパクトで効率的な視覚変換器をレンダリングし、元の視覚変換器と同等またははるかに優れた予測精度でレンダリングする。
- 参考スコア(独自算出の注目度): 8.905020033545643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention and transformers have been widely used in deep learning. Recent efforts have been devoted to incorporating transformer blocks into different neural architectures, including those with convolutions, leading to various visual transformers for computer vision tasks. In this paper, we propose a novel and compact transformer block, Transformer with Learnable Token Merging (LTM), or LTM-Transformer. LTM-Transformer performs token merging in a learnable scheme. LTM-Transformer is compatible with many popular and compact transformer networks, and it reduces the FLOPs and the inference time of the visual transformers while maintaining or even improving the prediction accuracy. In the experiments, we replace all the transformer blocks in popular visual transformers, including MobileViT, EfficientViT, ViT-S/16, and Swin-T, with LTM-Transformer blocks, leading to LTM-Transformer networks with different backbones. The LTM-Transformer is motivated by reduction of Information Bottleneck, and a novel and separable variational upper bound for the IB loss is derived. The architecture of mask module in our LTM blocks which generate the token merging mask is designed to reduce the derived upper bound for the IB loss. Extensive results on computer vision tasks evidence that LTM-Transformer renders compact and efficient visual transformers with comparable or much better prediction accuracy than the original visual transformers. The code of the LTM-Transformer is available at \url{https://github.com/Statistical-Deep-Learning/LTM}.
- Abstract(参考訳): 自己注意とトランスフォーマーは、ディープラーニングで広く使われている。
近年の取り組みは、畳み込みを含む、さまざまなニューラルネットワークアーキテクチャにトランスフォーマーブロックを組み込むことに重点を置いており、コンピュータビジョンタスクのための様々なビジュアルトランスフォーマーを生み出している。
本稿では,Learable Token Merging (LTM) を用いたトランスフォーマー,LTM-Transformerを提案する。
LTM-Transformerは学習可能なスキームでトークンマージを実行する。
LTM-Transformerは、多くの人気かつコンパクトなトランスフォーマーネットワークと互換性があり、予測精度を維持したり改善したりしながら、ビジュアルトランスフォーマーのFLOPと推論時間を短縮する。
実験では、MobileViT、EfficientViT、ViT-S/16、Swin-Tなどの一般的なビジュアルトランスフォーマーのトランスフォーマーブロックをLTM-Transformerブロックに置き換え、異なるバックボーンを持つLTM-Transformerネットワークを実現する。
LTM変換器は、Information Bottleneckの低減により動機付けられ、IB損失に対する新規で分離可能な変分上限が導出される。
トークンマージマスクを生成するLTMブロックにおけるマスクモジュールのアーキテクチャは、IB損失の導出上界を低減するために設計されている。
コンピュータビジョンタスクの広範な結果は、LTM-Transformerが元の視覚変換器と同等またははるかに優れた予測精度でコンパクトで効率的な視覚変換器をレンダリングしていることを示している。
LTM-Transformerのコードは \url{https://github.com/Statistical-Deep-Learning/LTM} で公開されている。
関連論文リスト
- MABViT -- Modified Attention Block Enhances Vision Transformers [0.0]
本稿では,この問題に対処するために,注目ブロック内に非線形性を統合した新しい変圧器変圧器を提案する。
我々は,値テンソル上でのGLUベースのアクティベーション関数を実装し,この新手法はImageNet-1Kデータセット上で現在最先端のS/16変圧器を0.6%上回っている。
論文 参考訳(メタデータ) (2023-12-03T09:00:31Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - A K-variate Time Series Is Worth K Words: Evolution of the Vanilla
Transformer Architecture for Long-term Multivariate Time Series Forecasting [52.33042819442005]
トランスフォーマーはMTSFのデファクトソリューションとなっている。
本研究では,MTSFトランスフォーマーアーキテクチャにおける現在のトークン化戦略がトランスフォーマーのトークン帰納バイアスを無視していることを指摘した。
バニラMTSF変圧器の基本構造について一連の進化を行った。
驚いたことに、進化した単純変圧器アーキテクチャは非常に効果的であり、バニラMTSF変圧器の過密現象を回避することに成功している。
論文 参考訳(メタデータ) (2022-12-06T07:00:31Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。