論文の概要: Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for
End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2209.08326v1
- Date: Sat, 17 Sep 2022 13:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:46:55.037913
- Title: Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for
End-to-End Speech Recognition
- Title(参考訳): エンド・ツー・エンド音声認識のための疎結合エキスパートの共有によるパラメーター効率のコンフォーメータ
- Authors: Ye Bai, Jie Li, Wenjing Han, Hao Ni, Kaituo Xu, Zhuo Zhang, Cheng Yi,
Xiaorui Wang
- Abstract要約: 本稿では,スパースゲート型エキスパートの共有によるパラメータ効率の高いコンバータを提案する。
具体的には,コンバータブロックの容量を増大させることなく,スパースゲート・オブ・エグゼクティブ(MoE)を用いて,コンバータブロックの容量を拡大する。
- 参考スコア(独自算出の注目度): 17.73449206184214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While transformers and their variant conformers show promising performance in
speech recognition, the parameterized property leads to much memory cost during
training and inference. Some works use cross-layer weight-sharing to reduce the
parameters of the model. However, the inevitable loss of capacity harms the
model performance. To address this issue, this paper proposes a
parameter-efficient conformer via sharing sparsely-gated experts. Specifically,
we use sparsely-gated mixture-of-experts (MoE) to extend the capacity of a
conformer block without increasing computation. Then, the parameters of the
grouped conformer blocks are shared so that the number of parameters is
reduced. Next, to ensure the shared blocks with the flexibility of adapting
representations at different levels, we design the MoE routers and
normalization individually. Moreover, we use knowledge distillation to further
improve the performance. Experimental results show that the proposed model
achieves competitive performance with 1/3 of the parameters of the encoder,
compared with the full-parameter model.
- Abstract(参考訳): 変換器とその変種コンバータは音声認識において有望な性能を示すが、パラメータ化特性はトレーニングや推論において多くのメモリコストをもたらす。
モデルのパラメータを減らすために、層間重量共有を使用する研究もある。
しかし、キャパシティの必然的な損失はモデル性能に悪影響を及ぼす。
この問題に対処するため,本稿では,分散した専門家の共有によるパラメータ効率のよいコンフォーメータを提案する。
具体的には,計算量の増加を伴わずにコンフォーメータブロックの容量を拡張するために,sparsely-gated mixture-of-experts (moe) を用いる。
次に、グループ化されたコンフォメータブロックのパラメータを、パラメータの数を減らすように共有する。
次に、共有ブロックに異なるレベルの表現を適用する柔軟性を確保するため、moeルータと正規化を個別に設計します。
さらに, 知識蒸留を用いて, 性能をさらに向上する。
実験結果から,提案モデルは全パラメータモデルと比較して,エンコーダのパラメータの1/3と競合する性能を示した。
関連論文リスト
- MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards [35.163843138935455]
大規模言語モデルの迅速なスケーリングには、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法が必要である。
本研究は、純粋な共有による有害な影響を逆転させる上で、差別化が不可欠であることを示す。
本研究では,層間共有と層間共有を併用し,ほぼ費用がかからない4つの差別戦略を統合することで,Shardsの混合(MoS)を提案する。
論文 参考訳(メタデータ) (2024-10-01T07:47:03Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Towards Being Parameter-Efficient: A Stratified Sparsely Activated
Transformer with Dynamic Capacity [37.04254056062765]
Stratified Mixture of Experts (SMoE)モデルは、異なるトークンに動的キャパシティを割り当てることができる。
SMoEは、同じまたは少ないパラメータで複数の最先端MoEモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-03T15:18:18Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Subformer: Exploring Weight Sharing for Parameter Efficiency in
Generative Transformers [16.88840622945725]
パラメータ効率の良いトランスフォーマーモデルであるSubformerを開発した。
機械翻訳、抽象的要約、および言語モデリングに関する実験は、サブフォーマーが大幅に少ないパラメータを使用してもトランスフォーマーを上回ることができることを示しています。
論文 参考訳(メタデータ) (2021-01-01T13:53:22Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。