論文の概要: Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models
- arxiv url: http://arxiv.org/abs/2303.08343v1
- Date: Wed, 15 Mar 2023 03:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:57:38.554617
- Title: Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models
- Title(参考訳): Tiny Always-On Ambient Speech Recognition Modelにおける低ランクコンバータ重みの共有
- Authors: Steven M. Hernandez, Ding Zhao, Shaojin Ding, Antoine Bruguier, Rohit
Prabhavalkar, Tara N. Sainath, Yanzhang He, Ian McGraw
- Abstract要約: コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
- 参考スコア(独自算出の注目度): 47.99478573698432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continued improvements in machine learning techniques offer exciting new
opportunities through the use of larger models and larger training datasets.
However, there is a growing need to offer these new capabilities on-board
low-powered devices such as smartphones, wearables and other embedded
environments where only low memory is available. Towards this, we consider
methods to reduce the model size of Conformer-based speech recognition models
which typically require models with greater than 100M parameters down to just
$5$M parameters while minimizing impact on model quality. Such a model allows
us to achieve always-on ambient speech recognition on edge devices with
low-memory neural processors. We propose model weight reuse at different levels
within our model architecture: (i) repeating full conformer block layers, (ii)
sharing specific conformer modules across layers, (iii) sharing sub-components
per conformer module, and (iv) sharing decomposed sub-component weights after
low-rank decomposition. By sharing weights at different levels of our model, we
can retain the full model in-memory while increasing the number of virtual
transformations applied to the input. Through a series of ablation studies and
evaluations, we find that with weight sharing and a low-rank architecture, we
can achieve a WER of 2.84 and 2.94 for Librispeech dev-clean and test-clean
respectively with a $5$M parameter model.
- Abstract(参考訳): 機械学習技術の改善は、より大きなモデルとより大きなトレーニングデータセットを使用することで、エキサイティングな新たな機会を提供する。
しかし、これらの新しい機能は、低メモリしか利用できないスマートフォン、ウェアラブル、その他の組み込み環境などの低電力デバイス上で提供される必要がある。
そこで本研究では,モデル品質への影響を最小限に抑えつつ,100万以上のパラメータを持つモデルを必要とするコンフォーマーベース音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより,低メモリニューラルプロセッサを用いたエッジデバイス上での常時オン環境音声認識を実現することができる。
モデルアーキテクチャのさまざまなレベルでのモデルウェイト再利用を提案する。
(i)完全適合性ブロック層を繰り返すこと。
(ii)層にまたがる特定のコンホメータモジュールの共有。
(iii)適合モジュールごとにサブコンポーネントを共有すること、及び
(iv)低位分解後の分解した副成分重みの共有。
モデルの異なるレベルで重みを共有することで、入力に適用される仮想変換の数を増やしながら、完全なモデルインメモリを維持することができる。
一連のアブレーション研究と評価を通じて、重量共有と低ランクアーキテクチャによって、librispeech dev-clean と test-clean はそれぞれ5億ドルのパラメータモデルで 2.84 と 2.94 の wer を達成できることがわかった。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Meta-Ensemble Parameter Learning [35.6391802164328]
本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。
WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
論文 参考訳(メタデータ) (2022-10-05T00:47:24Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。
その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。
本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文 参考訳(メタデータ) (2021-08-07T00:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。