論文の概要: Retrieve and Copy: Scaling ASR Personalization to Large Catalogs
- arxiv url: http://arxiv.org/abs/2311.08402v1
- Date: Tue, 14 Nov 2023 18:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:50:54.437971
- Title: Retrieve and Copy: Scaling ASR Personalization to Large Catalogs
- Title(参考訳): 検索とコピー:大規模カタログへのASRパーソナライゼーションのスケーリング
- Authors: Sai Muralidhar Jayanthi, Devang Kulshreshtha, Saket Dingliwal,
Srikanth Ronanki, Sravan Bodapati
- Abstract要約: 大規模カタログにスケールしても精度を保ちながらレイテンシを向上させるための"Retrieve and Copy"機構を提案する。
提案手法では, 単語誤り率低減(WERR)が最大6%向上し, F1の絶対改善率が3.6%向上した。
- 参考スコア(独自算出の注目度): 8.30487102697209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalization of automatic speech recognition (ASR) models is a widely
studied topic because of its many practical applications. Most recently,
attention-based contextual biasing techniques are used to improve the
recognition of rare words and domain specific entities. However, due to
performance constraints, the biasing is often limited to a few thousand
entities, restricting real-world usability. To address this, we first propose a
"Retrieve and Copy" mechanism to improve latency while retaining the accuracy
even when scaled to a large catalog. We also propose a training strategy to
overcome the degradation in recall at such scale due to an increased number of
confusing entities. Overall, our approach achieves up to 6% more Word Error
Rate reduction (WERR) and 3.6% absolute improvement in F1 when compared to a
strong baseline. Our method also allows for large catalog sizes of up to 20K
without significantly affecting WER and F1-scores, while achieving at least 20%
inference speedup per acoustic frame.
- Abstract(参考訳): 音声認識モデル(ASR)のパーソナライズは,多くの実用的応用のために広く研究されているトピックである。
最近では、まれな単語やドメイン固有のエンティティの認識を改善するために、注意に基づく文脈バイアス技術が使用されている。
しかしながら、パフォーマンス上の制約のため、バイアスはしばしば数千のエンティティに制限され、実世界のユーザビリティが制限される。
そこで我々はまず,大規模カタログにスケールしても精度を保ちながらレイテンシを向上させるための"Retrieve and Copy"機構を提案する。
また,混乱するエンティティの増加に伴い,このような規模のリコールの劣化を克服するためのトレーニング戦略を提案する。
提案手法は, 単語誤り率低減(WERR)が最大6%向上し, F1の絶対値が3.6%向上した。
また,WERとF1スコアに大きな影響を及ぼすことなく,最大20Kのカタログサイズを実現し,音響フレームあたりの推論速度を20%以上向上する。
関連論文リスト
- Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - Self-Aware Feedback-Based Self-Learning in Large-Scale Conversational AI [8.638846754482467]
大規模な会話型AIエージェントにおける自己学習のパラダイムは、ユーザからのフィードバックを利用して、発言と意味をブリッジする傾向がある。
我々の自己認識モデルはPR-AUC全体を27.45%改善し、相対的な欠陥を最大31.22%減少させ、世界的嗜好の変化に迅速に適応できることを示した。
論文 参考訳(メタデータ) (2022-04-29T18:18:40Z) - Efficient, Uncertainty-based Moderation of Neural Networks Text
Classifiers [8.883733362171034]
本稿では,分類器の出力を効率よく操作できるフレームワークを提案する。
予測の不確実性を利用して、不確実で、おそらく不正確な分類を人間のモデレーターに渡す半自動化アプローチを提案する。
一連のベンチマーク実験により、我々のフレームワークは分類F1スコアを5.1から11.2%改善できることが示された。
論文 参考訳(メタデータ) (2022-04-04T09:07:54Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Multiplicative Reweighting for Robust Neural Network Optimization [51.67267839555836]
MW(multiplicative weight)更新は、専門家のアドバイスにより、適度なデータ破損に対して堅牢である。
MWはラベルノイズの存在下でニューラルネットワークの精度を向上することを示す。
論文 参考訳(メタデータ) (2021-02-24T10:40:25Z) - Improving Auto-Augment via Augmentation-Wise Weight Sharing [123.71986174280741]
自動拡張検索の重要な要素は、特定の拡張ポリシーの評価プロセスである。
本稿では,モデルの強化トレーニングのダイナミクスについて検討する。
我々は,Augmentation-Wise Weight Sharing (AWS)に基づいて,高速かつ高精度な評価プロセスを構築するために,強力で効率的なプロキシタスクを設計する。
論文 参考訳(メタデータ) (2020-09-30T15:23:12Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。