論文の概要: ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for
Transformer Layers
- arxiv url: http://arxiv.org/abs/2310.02489v2
- Date: Sat, 6 Jan 2024 23:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:47:31.506340
- Title: ResidualTransformer: Residual Low-Rank Learning with Weight-Sharing for
Transformer Layers
- Title(参考訳): 残差変換器:トランスフォーマ層のための重み共有型残差低ランク学習
- Authors: Yiming Wang, Jinyu Li
- Abstract要約: 常時オンのデバイスのメモリ制約は、音声処理モデルをデプロイする際の大きな懸念点の1つである。
本稿では,Residual Transformer という手法を提案する。トランスフォーマー層内の各重み行列は,1) 隣接層との共有フルランク成分と,2) 独自の低ランク成分とを含む。
10k時間音声認識および音声翻訳タスクの実験により,トランスフォーマーエンコーダのサイズを3倍に小さくすることができ,性能の低下が極めて少ないことがわかった。
- 参考スコア(独自算出の注目度): 38.310917646404576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memory constraint of always-on devices is one of the major concerns when
deploying speech processing models on these devices. While larger models
trained with sufficiently large amount of data generally perform better, making
them fit in the device memory is a demanding challenge. In this paper, we aim
to reduce model size by reparameterizing model weights across Transformer
encoder layers and assuming a special weight composition and structure. More
specifically, inspired by ResNet and the more recent LoRA work, we propose an
approach named ResidualTransformer, where each weight matrix in a Transformer
layer comprises 1) a shared full-rank component with its adjacent layers, and
2) a unique low-rank component to itself. The low-rank matrices only account
for a small amount of model size increase. In addition, we add diagonal weight
matrices to improve modeling capacity of the low-rank matrices. Experiments of
our 10k-hour speech recognition and speech translation tasks show that the
Transformer encoder size can be reduced by ~3X with very slight performance
degradation.
- Abstract(参考訳): 常時オンのデバイスのメモリ制約は、これらのデバイスに音声処理モデルをデプロイする際の大きな懸念の1つである。
十分な量のデータをトレーニングした大規模モデルの方が一般的にはパフォーマンスがよいが、デバイスメモリに適合させるのは難しい課題だ。
本稿では,トランスフォーマーエンコーダ層にまたがるモデルの重みをパラメータ化し,特別な重み構成と構造を仮定することにより,モデルサイズを低減することを目的とする。
より具体的には、ResNetと最近のLoRAの研究にインスパイアされたResidual Transformerというアプローチを提案し、Transformer層の各重み行列が構成される。
1)隣接層との共有フルランクコンポーネント、及び
2) 独自の低ランクなコンポーネント自体。
低ランクの行列は、少量のモデルサイズの増加しか説明できない。
さらに,低ランク行列のモデリング能力を向上させるために対角重量行列を追加する。
10k時間音声認識と音声翻訳タスクの実験により、トランスコーダのサイズを約3倍小さくし、性能を低下させることができた。
関連論文リスト
- LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient
Language Model Finetuning [73.03525981320749]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Learning Robust and Lightweight Model through Separable Structured
Transformations [13.208781763887947]
本稿では、畳み込みニューラルネットワークのパラメータを低減するために、完全連結層を分離可能な構造変換を提案する。
ネットワークパラメータの90%削減に成功し、ロバストな精度損失は1.5%未満である。
我々は、ImageNet、SVHN、CIFAR-100、Vision Transformerなどのデータセットに対する提案手法を評価する。
論文 参考訳(メタデータ) (2021-12-27T07:25:26Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Evaluating Transformers for Lightweight Action Recognition [7.509129971169722]
13の動画トランスフォーマーとベースラインを3つの大規模データセットと10のハードウェアデバイスでベンチマークします。
コンボリューションバックボーンを増強する複合トランスは, 軽量な動作認識に最適であることを示す。
実験では、現在のビデオトランスフォーマーは従来の畳み込みベースラインと同等の軽量なアクション認識がまだできないと結論付けている。
論文 参考訳(メタデータ) (2021-11-18T11:45:42Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。