論文の概要: Sliced Recursive Transformer
- arxiv url: http://arxiv.org/abs/2111.05297v1
- Date: Tue, 9 Nov 2021 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 14:48:52.955076
- Title: Sliced Recursive Transformer
- Title(参考訳): スライス再帰変圧器
- Authors: Zhiqiang Shen and Zechun Liu and Eric Xing
- Abstract要約: 視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
- 参考スコア(独自算出の注目度): 23.899076070924153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a neat yet effective recursive operation on vision transformers
that can improve parameter utilization without involving additional parameters.
This is achieved by sharing weights across depth of transformer networks. The
proposed method can obtain a substantial gain (~2%) simply using na\"ive
recursive operation, requires no special or sophisticated knowledge for
designing principles of networks, and introduces minimum computational overhead
to the training procedure. To reduce the additional computation caused by
recursive operation while maintaining the superior accuracy, we propose an
approximating method through multiple sliced group self-attentions across
recursive layers which can reduce the cost consumption by 10~30% with minimal
performance loss. We call our model Sliced Recursive Transformer (SReT), which
is compatible with a broad range of other designs for efficient vision
transformers. Our best model establishes significant improvement on ImageNet
over state-of-the-art methods while containing fewer parameters. The proposed
sliced recursive operation allows us to build a transformer with more than 100
or even 1000 layers effortlessly under a still small size (13~15M), to avoid
difficulties in optimization when the model size is too large. The flexible
scalability has shown great potential for scaling up and constructing extremely
deep and large dimensionality vision transformers. Our code and models are
available at https://github.com/szq0214/SReT.
- Abstract(参考訳): 本稿では,新たなパラメータを伴わずにパラメータ利用率を向上できる視覚変換器の最適かつ効果的な再帰操作を提案する。
これはトランスネットワークの深さにわたって重みを共有することで達成される。
提案手法は,na\ 帰納的再帰演算を用いて,ネットワークの原理設計に特別な知識や高度な知識を必要とせず,訓練手順に最小限の計算オーバーヘッドを導入することで,実質的なゲイン(〜2%)を得ることができる。
高い精度を維持しながら再帰操作による計算量を削減するため,再帰的層をまたいだ複数のグループ自己注意による近似手法を提案し,性能損失を最小限に抑えながら,コストを10~30%削減できることを示した。
model sliced recursive transformer(sret)と呼んでいます。これは、効率的な視覚トランスフォーマーのための、他の幅広い設計と互換性があります。
我々の最良のモデルは、パラメータを少なく抑えながら、最先端の手法よりもImageNetを大幅に改善する。
提案したスライス再帰操作により,モデルサイズが大きすぎる場合の最適化の難しさを回避するため,100層以上,1000層以上のトランスフォーマーをまだ小さなサイズ (13~15M) 以下に構築することができる。
柔軟なスケーラビリティは、非常に深く大きな次元の視覚変換器をスケールアップし、構築する大きな可能性を示している。
私たちのコードとモデルはhttps://github.com/szq0214/sretで利用可能です。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文 参考訳(メタデータ) (2024-08-22T17:35:18Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer [34.46696132157042]
本稿では,モノクロ画像からトランスフォーマーをベースとしたHuman Meshリカバリのための簡易かつ効果的なToken Reduction戦略を提案する。
本稿では,2つの重要な側面,すなわち3次元幾何学構造と2次元画像特徴に基づくトークン削減戦略を提案する。
本手法はトランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減する。
論文 参考訳(メタデータ) (2022-11-19T14:06:58Z) - DRT: A Lightweight Single Image Deraining Recursive Transformer [21.889582347604648]
パラメータ化の超過は、モデルが与えられたタスクに対して十分に学習し、一般化するのを手助けするディープラーニングの一般的なテクニックである。
最近の視覚タスクにおける強力なトランスフォーマーベースディープラーニングモデルは通常、重いパラメータを持ち、訓練の難しさを負う。
残差接続を有する自己アテンション構造を導入し、再帰変換器(DRT)のデライン化を提案する。
提案モデルでは,Rain100Lベンチマークの最先端手法を少なくとも0.33dB超えながら,現在最高の性能モデルのパラメータの1.3%しか使用していない。
論文 参考訳(メタデータ) (2022-04-25T01:06:09Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。