論文の概要: A Model for Every User and Budget: Label-Free and Personalized
Mixed-Precision Quantization
- arxiv url: http://arxiv.org/abs/2307.12659v2
- Date: Sun, 11 Feb 2024 12:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 22:39:40.617536
- Title: A Model for Every User and Budget: Label-Free and Personalized
Mixed-Precision Quantization
- Title(参考訳): すべてのユーザと予算のためのモデル:ラベルフリーとパーソナライズされた混合精度量子化
- Authors: Edward Fish, Umberto Michieli, Mete Ozay
- Abstract要約: ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。
MyQASRは、微調整なしで任意のメモリ要件の下で、多様なユーザ向けに調整された量子化スキームを生成する。
大規模なASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。
- 参考スコア(独自算出の注目度): 23.818922559567994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancement in Automatic Speech Recognition (ASR) has produced large
AI models, which become impractical for deployment in mobile devices. Model
quantization is effective to produce compressed general-purpose models, however
such models may only be deployed to a restricted sub-domain of interest. We
show that ASR models can be personalized during quantization while relying on
just a small set of unlabelled samples from the target domain. To this end, we
propose myQASR, a mixed-precision quantization method that generates tailored
quantization schemes for diverse users under any memory requirement with no
fine-tuning. myQASR automatically evaluates the quantization sensitivity of
network layers by analysing the full-precision activation values. We are then
able to generate a personalised mixed-precision quantization scheme for any
pre-determined memory budget. Results for large-scale ASR models show how
myQASR improves performance for specific genders, languages, and speakers.
- Abstract(参考訳): 近年のASR(Automatic Speech Recognition)の進歩は、モバイルデバイスへの展開に欠かせない大規模なAIモデルを生み出している。
モデル量子化は圧縮された汎用モデルを生成するのに有効であるが、そのようなモデルは制限されたサブドメインにのみデプロイできる。
ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。
そこで本研究では,マイクロチューニングを伴わないメモリ要求条件下で,多様なユーザに適した量子化スキームを生成する混合精度量子化手法であるmyQASRを提案する。
myQASRは、全精度アクティベーション値を分析して、ネットワーク層の量子化感度を自動的に評価する。
そして、事前決定されたメモリ予算に対して、パーソナライズされた混合精度量子化スキームを生成することができる。
大規模ASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。
関連論文リスト
- Enhancing Quantised End-to-End ASR Models via Personalisation [12.971231464928806]
量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
論文 参考訳(メタデータ) (2023-09-17T02:35:21Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Modular Quantization-Aware Training: Increasing Accuracy by Decreasing
Precision in 6D Object Pose Estimation [56.80039657816035]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Distributional Learning of Variational AutoEncoder: Application to
Synthetic Data Generation [0.7614628596146602]
本稿では,VAEフレームワークの計算上の利点を犠牲にすることなく,モデル容量を拡大する手法を提案する。
VAEモデルのデコーダは、非対称ラプラス分布の無限混合からなる。
提案したモデルを合成データ生成に適用し,特にデータプライバシの調整が容易であることを示す。
論文 参考訳(メタデータ) (2023-02-22T11:26:50Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Generative Design of Hardware-aware DNNs [6.144349819246314]
本稿では,自律量子化とHW対応チューニングの新しい手法を提案する。
生成モデルであるAQGANは、目標精度を条件として、一連の量子化構成を生成する。
我々は、ImageNetデータセット上で広く使われている5つの効率的なモデルについて、我々のモデルを評価した。
論文 参考訳(メタデータ) (2020-06-06T20:39:25Z) - Feature Transformation Ensemble Model with Batch Spectral Regularization
for Cross-Domain Few-Shot Classification [66.91839845347604]
特徴抽出ネットワークの後に多様な特徴変換を行うことにより,アンサンブル予測モデルを提案する。
我々は,事前学習中に特徴行列の特異値を抑制するために,バッチスペクトル正規化項を用い,モデルの一般化能力を向上させる。
提案したモデルは、ターゲット領域で微調整して、数発の分類に対処することができる。
論文 参考訳(メタデータ) (2020-05-18T05:31:04Z) - Regularized Autoencoders via Relaxed Injective Probability Flow [35.39933775720789]
非可逆フローベース生成モデルは、抽出可能な確率計算と推論を可能にしながら、サンプルを生成するための効果的な方法である。
本稿では, モデル上の単射性要件を回避し, 単射性のみを仮定する確率フローに基づく生成モデルを提案する。
論文 参考訳(メタデータ) (2020-02-20T18:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。