論文の概要: Training for Speech Recognition on Coprocessors
- arxiv url: http://arxiv.org/abs/2003.12366v1
- Date: Sun, 22 Mar 2020 11:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:24:09.686484
- Title: Training for Speech Recognition on Coprocessors
- Title(参考訳): コプロセッサによる音声認識訓練
- Authors: Sebastian Baunsgaard and Sebastian B. Wrede and P{\i}nar Tozun
- Abstract要約: 本稿では、この領域における最近の研究に触発されたディープニューラルネットワークに基づくASRモデルとその構築経験について述べる。
このモデルを、異なる予算カテゴリを表す3つのCPU-GPUコプロセッサプラットフォーム上で評価する。
ハードウェアアクセラレーションを利用することで,ハイエンド機器を使わずとも良好な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) has increased in popularity in recent
years. The evolution of processor and storage technologies has enabled more
advanced ASR mechanisms, fueling the development of virtual assistants such as
Amazon Alexa, Apple Siri, Microsoft Cortana, and Google Home. The interest in
such assistants, in turn, has amplified the novel developments in ASR research.
However, despite this popularity, there has not been a detailed training
efficiency analysis of modern ASR systems. This mainly stems from: the
proprietary nature of many modern applications that depend on ASR, like the
ones listed above; the relatively expensive co-processor hardware that is used
to accelerate ASR by big vendors to enable such applications; and the absence
of well-established benchmarks. The goal of this paper is to address the latter
two of these challenges. The paper first describes an ASR model, based on a
deep neural network inspired by recent work in this domain, and our experiences
building it. Then we evaluate this model on three CPU-GPU co-processor
platforms that represent different budget categories. Our results demonstrate
that utilizing hardware acceleration yields good results even without high-end
equipment. While the most expensive platform (10X price of the least expensive
one) converges to the initial accuracy target 10-30% and 60-70% faster than the
other two, the differences among the platforms almost disappear at slightly
higher accuracy targets. In addition, our results further highlight both the
difficulty of evaluating ASR systems due to the complex, long, and resource
intensive nature of the model training in this domain, and the importance of
establishing benchmarks for ASR.
- Abstract(参考訳): 近年,音声認識(ASR)が普及している。
プロセッサとストレージ技術の進化により、より高度なASRメカニズムが実現され、Amazon Alexa、Apple Siri、Microsoft Cortana、Google Homeといったバーチャルアシスタントの開発が促進された。
このようなアシスタントに対する関心は、ASR研究の新たな発展を増幅している。
しかし、この人気にもかかわらず、現代のASRシステムの詳細な訓練効率分析は行われていない。
これは主に、上記のようなasrに依存する多くの現代的なアプリケーションのプロプライエタリな性質、大規模ベンダーがasrを加速してそのようなアプリケーションを可能にする比較的高価なコプロセッサハードウェア、確立されたベンチマークがないことに由来する。
本稿の目的は,これら2つの課題に対処することである。
論文はまず,この領域における最近の研究に触発された深層ニューラルネットワークに基づくasrモデルと,その構築経験について述べる。
次に、異なる予算カテゴリを表す3つのcpu-gpuコプロセッサプラットフォームでこのモデルを評価する。
ハードウェアアクセラレーションを利用することで,ハイエンド機器を使わずとも良好な結果が得られることを示す。
最も高価なプラットフォーム(最も高価なプラットフォームの10倍の価格)は、最初の精度目標の10-30%と、他の2つよりも60-70%速く収束するが、プラットフォームの違いは、わずかに高い精度目標でほぼ消滅する。
さらに,本研究の結果は,この領域におけるモデルトレーニングの複雑,長期,資源集約性によるASRシステム評価の難しさと,ASRのベンチマークの確立の重要性をさらに強調した。
関連論文リスト
- Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - A Comprehensive Performance Study of Large Language Models on Novel AI
Accelerators [2.88634411143577]
大規模言語モデル(LLM)は、いくつかの課題に対処するための有望なアプローチと考えられている。
専門のAIアクセラレータハードウェアシステムは、最近、AIアプリケーションの高速化に利用できるようになった。
論文 参考訳(メタデータ) (2023-10-06T21:55:57Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Achieving on-Mobile Real-Time Super-Resolution with Neural Architecture
and Pruning Search [64.80878113422824]
リアルタイムの推論要求を満たすとともに、画像品質の高いスパース超解像モデル(SR)を導出する自動探索フレームワークを提案する。
提案したフレームワークでは、競合画像の品質を持つ720pの解像度を実現するために、リアルタイムSR推論(フレームあたり数ミリ秒)を初めて実現している。
論文 参考訳(メタデータ) (2021-08-18T06:47:31Z) - How to Reach Real-Time AI on Consumer Devices? Solutions for
Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。
このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。
クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T11:23:12Z) - Exploiting Beam Search Confidence for Energy-Efficient Speech
Recognition [0.0]
エッジデバイス用低消費電力ハードウェアを中心に、ASRシステムのエネルギー効率と性能を向上させる技術を提案します。
これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%と25.9%削減し、無視可能な精度の損失を伴います。
論文 参考訳(メタデータ) (2021-01-22T12:35:35Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。