論文の概要: Sim-T: Simplify the Transformer Network by Multiplexing Technique for
Speech Recognition
- arxiv url: http://arxiv.org/abs/2304.04991v1
- Date: Tue, 11 Apr 2023 05:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:10:02.421012
- Title: Sim-T: Simplify the Transformer Network by Multiplexing Technique for
Speech Recognition
- Title(参考訳): Sim-T: 音声認識のための多重化手法によるトランスフォーマーネットワークの簡易化
- Authors: Guangyong Wei, Zhikui Duan, Shiren Li, Guangguang Yang, Xinmei Yu,
Junhua Li
- Abstract要約: トランスフォーマーモデルの汎用性を高めるために,Sim-Tと呼ばれる新しい軽量モデルが提案されている。
新たに開発された多重化技術の助けを借りて、Sim-Tはその性能に対して無視できない犠牲でモデルを効率的に圧縮することができる。
- 参考スコア(独自算出の注目度): 2.4956060473718407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, a great deal of attention has been paid to the Transformer
network for speech recognition tasks due to its excellent model performance.
However, the Transformer network always involves heavy computation and large
number of parameters, causing serious deployment problems in devices with
limited computation sources or storage memory. In this paper, a new lightweight
model called Sim-T has been proposed to expand the generality of the
Transformer model. Under the help of the newly developed multiplexing
technique, the Sim-T can efficiently compress the model with negligible
sacrifice on its performance. To be more precise, the proposed technique
includes two parts, that are, module weight multiplexing and attention score
multiplexing. Moreover, a novel decoder structure has been proposed to
facilitate the attention score multiplexing. Extensive experiments have been
conducted to validate the effectiveness of Sim-T. In Aishell-1 dataset, when
the proposed Sim-T is 48% parameter less than the baseline Transformer, 0.4%
CER improvement can be obtained. Alternatively, 69% parameter reduction can be
achieved if the Sim-T gives the same performance as the baseline Transformer.
With regard to the HKUST and WSJ eval92 datasets, CER and WER will be improved
by 0.3% and 0.2%, respectively, when parameters in Sim-T are 40% less than the
baseline Transformer.
- Abstract(参考訳): 近年,その優れたモデル性能から,音声認識タスクのトランスフォーマーネットワークに注目が集まっている。
しかし、トランスフォーマーネットワークは常に重い計算と大量のパラメータを伴い、計算ソースやストレージメモリの制限されたデバイスに深刻なデプロイ問題を引き起こす。
本稿では,トランスフォーマーモデルの拡張のために,Sim-Tと呼ばれる新しい軽量モデルを提案する。
新しく開発された多重化技術により、sim-tはその性能を犠牲にして効率的にモデルを圧縮することができる。
より正確に言うと、提案手法はモジュール重み多重化とアテンションスコア多重化という2つの部分を含む。
また,注意スコア多重化を容易にするために,新しいデコーダ構造が提案されている。
Sim-Tの有効性を検証するために大規模な実験が行われた。
Aishell-1データセットでは、提案したSim-Tがベースライントランスよりも48%少ないパラメータである場合、0.4%のCER改善が得られる。
あるいは、Sim-Tがベースライン変換器と同じ性能を与えると、69%のパラメータ削減が達成される。
HKUSTとWSJ eval92データセットに関して、Sim-Tのパラメータがベースライントランスフォーマーよりも40%少ない場合、CERとWERはそれぞれ0.3%と0.2%改善される。
関連論文リスト
- Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose
Estimation [77.68599742038455]
本稿では,Hourglass Tokenizer (HoT) と呼ばれる,効率的なトランスフォーマーに基づく3次元ポーズ推定のためのプラグアンドプレイプルーニング・リカバリフレームワークを提案する。
私たちのHoTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了し、中間トランスフォーマーブロックでいくつかのポーズトークンが生成される。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。
TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。
これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:53:39Z) - Probing the limit of hydrologic predictability with the Transformer
network [7.326504492614808]
我々は、広くベンチマークされたCAMELSデータセット上で、バニラトランスフォーマーアーキテクチャがLSTMと競合しないことを示す。
Transformerの再現性のない変種はLSTMとの混合比較を得ることができ、同じKling-Gupta効率係数(KGE)を他の指標とともに生成する。
Transformerの結果は現在の最先端のものほど高くはないが、それでもいくつかの貴重な教訓が得られた。
論文 参考訳(メタデータ) (2023-06-21T17:06:54Z) - SVT: Supertoken Video Transformer for Efficient Video Understanding [22.357170476500944]
本稿では,SPM(Semantic Pooling Module)を組み込んだSVT(Supertoken Video Transformer)を提案する。
提案手法は,類似のセマンティクスで潜在表現をマージすることで冗長性を効果的に低減し,下流タスクに対する有能な情報の割合を増大させることができる。
論文 参考訳(メタデータ) (2023-04-01T14:31:56Z) - SaiT: Sparse Vision Transformers through Adaptive Token Pruning [5.1477382898520485]
スパース適応画像変換器(SaiT)は、ハエのトークン間隔を単に変更するだけで、モデルアクセラレーションの様々なレベルを提供する。
SaiTは複雑性(FLOP)を39%から43%削減し、スループットを67%から91%向上させる。
論文 参考訳(メタデータ) (2022-10-11T23:26:42Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。