論文の概要: Sparse Universal Transformer
- arxiv url: http://arxiv.org/abs/2310.07096v1
- Date: Wed, 11 Oct 2023 00:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 00:56:16.971417
- Title: Sparse Universal Transformer
- Title(参考訳): スパースユニバーサルトランスフォーマ
- Authors: Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan
- Abstract要約: Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
- 参考スコア(独自算出の注目度): 64.78045820484299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Universal Transformer (UT) is a variant of the Transformer that shares
parameters across its layers. Empirical evidence shows that UTs have better
compositional generalization than Vanilla Transformers (VTs) in formal language
tasks. The parameter-sharing also affords it better parameter efficiency than
VTs. Despite its many advantages, scaling UT parameters is much more compute
and memory intensive than scaling up a VT. This paper proposes the Sparse
Universal Transformer (SUT), which leverages Sparse Mixture of Experts (SMoE)
and a new stick-breaking-based dynamic halting mechanism to reduce UT's
computation complexity while retaining its parameter efficiency and
generalization ability. Experiments show that SUT achieves the same performance
as strong baseline models while only using half computation and parameters on
WMT'14 and strong generalization results on formal language tasks (Logical
inference and CFQ). The new halting mechanism also enables around 50\%
reduction in computation during inference with very little performance decrease
on formal language tasks.
- Abstract(参考訳): Universal Transformer (UT) はTransformerの変種であり、それらの層にまたがるパラメータを共有する。
経験的証拠は、UTは形式言語タスクにおいてVanilla Transformers (VTs) よりも構成的一般化が優れていることを示している。
パラメータ共有はまた、VTよりもパラメータ効率が良い。
その多くの利点にもかかわらず、UTパラメータのスケーリングはVTのスケールアップよりもはるかに計算量とメモリ集約性が高い。
本稿では,スパース・ミキチャー・オブ・エキスパート(SMoE)と新しいスティック・ブレーキング・ベースの動的停止機構を利用して,パラメータ効率と一般化能力を保ちながら,UTの計算複雑性を低減するスパース・ユニバーサル・トランスフォーマー(SUT)を提案する。
実験の結果,SUT は WMT'14 上での半計算とパラメータのみを使用し,形式言語タスク(論理推論とCFQ)上での強い一般化結果のみを用いて,強いベースラインモデルと同じ性能を達成することがわかった。
新しい停止機構はまた、形式言語タスクのパフォーマンスをほとんど低下させることなく、推論中の計算量を約50\%削減できる。
関連論文リスト
- BESA: Pruning Large Language Models with Blockwise Parameter-Efficient
Sparsity Allocation [56.32997656670112]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
BESAは最先端のパフォーマンスを実現し、たった5時間で単一のA100 GPU上で7Bから70Bパラメータを持つLLaMA1やLLaMA2のようなLLMを効率よく刈り取る
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - DePT: Decomposed Prompt Tuning for Parameter-Efficient Fine-tuning [14.975436239088312]
ソフトプロンプトを短いソフトプロンプトと2つの異なる学習率で最適化された低ランク行列に分解するDePTを提案する。
DePTは、いくつかのシナリオにおいて、完全な微調整ベースラインを含む最先端のPEFTアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-11T00:02:05Z) - Attention Is Not All You Need Anymore [3.9693969407364427]
本稿では,トランスフォーマーの自己保持機構に対するドロップイン置換のファミリを提案する。
実験結果から,自己保持機構をSHEに置き換えることによってトランスフォーマーの性能が向上することが示唆された。
提案されたエクストラクターは、自己保持機構よりも速く走ることができる。
論文 参考訳(メタデータ) (2023-08-15T09:24:38Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient
Inference in Large-Scale Generative Language Models [9.467007917417456]
大規模生成言語モデルに適した効率的な推論フレームワークを提案する。
我々は、アクティベーションの完全精度を維持しながら、重量のみの量子化戦略を採用する。
LUT-GEMMと呼ばれる提案したカーネルは、量子化された行列乗法を高速化する。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。