論文の概要: Application-Agnostic Language Modeling for On-Device ASR
- arxiv url: http://arxiv.org/abs/2305.09764v1
- Date: Tue, 16 May 2023 19:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:41:10.235615
- Title: Application-Agnostic Language Modeling for On-Device ASR
- Title(参考訳): オンデバイスASRのためのアプリケーション非依存言語モデリング
- Authors: Markus Nu{\ss}baum-Thom, Lyan Verwimp, Youssef Oualil
- Abstract要約: オンデバイス自動音声認識システムは,サーバベースシステムと比較していくつかの課題に直面している。
スピード、ディスクサイズ、メモリに関して、より厳格な制約を満たす必要がある。
我々の新しいアプローチの1つは、元のモデルの速度と精度を維持しながら、ディスクサイズを半分に減らします。
- 参考スコア(独自算出の注目度): 6.03523493247947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device automatic speech recognition systems face several challenges
compared to server-based systems. They have to meet stricter constraints in
terms of speed, disk size and memory while maintaining the same accuracy. Often
they have to serve several applications with different distributions at once,
such as communicating with a virtual assistant and speech-to-text. The simplest
solution to serve multiple applications is to build application-specific
(language) models, but this leads to an increase in memory. Therefore, we
explore different data- and architecture-driven language modeling approaches to
build a single application-agnostic model. We propose two novel feed-forward
architectures that find an optimal trade off between different on-device
constraints. In comparison to the application-specific solution, one of our
novel approaches reduces the disk size by half, while maintaining speed and
accuracy of the original model.
- Abstract(参考訳): オンデバイス自動音声認識システムは,サーバベースシステムと比較していくつかの課題に直面している。
スピード、ディスクサイズ、メモリに関しては、同じ精度を維持しながら、より厳格な制約を満たす必要がある。
仮想アシスタントや音声テキストとの通信など、複数のアプリケーションを一度に異なる分散で提供しなければなりません。
複数のアプリケーションを提供する最も単純なソリューションは、アプリケーション固有の(言語)モデルを構築することだが、これはメモリの増加につながる。
そこで我々は,単一のアプリケーションに依存しないモデルを構築するために,異なるデータおよびアーキテクチャ駆動型言語モデリング手法を検討する。
異なるデバイス上の制約間の最適なトレードオフを求める2つの新しいフィードフォワードアーキテクチャを提案する。
アプリケーション固有のソリューションと比較して,提案手法の1つは,原モデルの速度と精度を維持しつつ,ディスクサイズを半分に削減するものである。
関連論文リスト
- Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients [12.008071873475169]
フェデレートラーニング(Federated Learning)とは、異なるクライアント上でデータをローカルに保ちながら、共有予測モデルを共同で学習するテクニックである。
本稿では, 早期解を用いた動的アーキテクチャを用いて, 入力や動作条件に応じて, その処理を適応させることができることを提案する。
このソリューションは、部分的なトレーニングメソッドの領域に該当し、2つのメリットをもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:32:37Z) - Gated Low-rank Adaptation for personalized Code-Switching Automatic Speech Recognition on the low-spec devices [28.06179341376626]
性能劣化を最小限に抑えたパラメータ効率の良い微調整のためのゲートローランク適応(GLoRA)を導入する。
韓国語と英語のコードスイッチングデータセットを用いて実験を行い、コードスイッチングのための微調整音声認識モデルが、スクラッチから訓練された従来のコードスイッチング音声認識モデルの性能を上回ることを示した。
論文 参考訳(メタデータ) (2024-04-24T01:31:39Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language
and Accent Identification [0.013428344011390777]
エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。
このアプローチでは、言語識別とアクセント識別の両方を使用して、複数の単言語ASRモデルの1つをオンザフライで選択する。
認識性能と資源利用の両面での最初の結果は,他のソリューションが消費するメモリの1/12以下を用いて,我々のアプローチに期待できるものである。
論文 参考訳(メタデータ) (2021-08-04T12:59:53Z) - A baseline model for computationally inexpensive speech recognition for
Kazakh using the Coqui STT framework [0.0]
我々は,Coqui STTフレームワークを用いて,新しいベースライン音響モデルと3つの言語モデルを訓練する。
結果は有望に見えるが、実運用レベルの精度に到達するには、トレーニングとパラメータスイープのさらなるエポックが必要である。
論文 参考訳(メタデータ) (2021-07-19T14:17:42Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。