論文の概要: Exploiting Beam Search Confidence for Energy-Efficient Speech
Recognition
- arxiv url: http://arxiv.org/abs/2101.09083v1
- Date: Fri, 22 Jan 2021 12:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:19:05.219046
- Title: Exploiting Beam Search Confidence for Energy-Efficient Speech
Recognition
- Title(参考訳): エネルギー効率の良い音声認識のための爆発的ビーム探索信頼度
- Authors: Dennis Pinto, Jose-Mar\'ia Arnau, Antonio Gonz\'alez
- Abstract要約: エッジデバイス用低消費電力ハードウェアを中心に、ASRシステムのエネルギー効率と性能を向上させる技術を提案します。
これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%と25.9%削減し、無視可能な精度の損失を伴います。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With computers getting more and more powerful and integrated in our daily
lives, the focus is increasingly shifting towards more human-friendly
interfaces, making Automatic Speech Recognition (ASR) a central player as the
ideal means of interaction with machines. Consequently, interest in speech
technology has grown in the last few years, with more systems being proposed
and higher accuracy levels being achieved, even surpassing \textit{Human
Accuracy}. While ASR systems become increasingly powerful, the computational
complexity also increases, and the hardware support have to keep pace. In this
paper, we propose a technique to improve the energy-efficiency and performance
of ASR systems, focusing on low-power hardware for edge devices. We focus on
optimizing the DNN-based Acoustic Model evaluation, as we have observed it to
be the main bottleneck in state-of-the-art ASR systems, by leveraging run-time
information from the Beam Search. By doing so, we reduce energy and execution
time of the acoustic model evaluation by 25.6% and 25.9%, respectively, with
negligible accuracy loss.
- Abstract(参考訳): コンピュータが日々の生活にますます強力で統合されていくにつれて、焦点はますます人間フレンドリーなインターフェースへとシフトし、自動音声認識(ASR)が機械との対話の理想的な手段となる。
その結果、ここ数年で音声技術への関心が高まり、より多くのシステムが提案され、より高い精度が達成され、さらには \textit{human accuracy} を超えている。
ASRシステムはますます強力になるが、計算の複雑さも増大し、ハードウェアサポートはペースを維持する必要がある。
本稿では,エッジデバイス用低消費電力ハードウェアに着目し,ASRシステムのエネルギー効率と性能を向上させる手法を提案する。
我々は,dnnに基づく音響モデル評価の最適化に重点を置いており,ビームサーチからの実行時間情報を活用することで,最先端asrシステムにおける主要なボトルネックであると考えられる。
これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%削減し、25.9%削減する。
関連論文リスト
- Efficient Speech Quality Assessment using Self-supervised Framewise
Embeddings [13.12010504777376]
音声品質評価は、音声研究者、開発者、言語病理学者、システム品質エンジニアにとって不可欠である。
現在の最先端システムは、時間依存モデリングと組み合わせたフレームワイズ音声特徴(手動または学習可能な)に基づいている。
本稿では,ConferenceSpeech 2022 Challengeにおいて,最高のパフォーマンスモデルに匹敵する効率のよいシステムを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:57:08Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Multiply-and-Fire (MNF): An Event-driven Sparse Neural Network
Accelerator [3.224364382976958]
この研究は、ANNアクセラレーションに対するイベント駆動(あるいはアクティベーション駆動)アプローチで、スパーシリティをユニークな視点で見る。
我々の分析および実験結果から、このイベント駆動型ソリューションは、CNNとワークロードの両方で高効率なAI推論を可能にするために、新たな方向を示すことが示されている。
論文 参考訳(メタデータ) (2022-04-20T21:56:50Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Deep Reinforcement Learning Based Multidimensional Resource Management
for Energy Harvesting Cognitive NOMA Communications [64.1076645382049]
エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせはエネルギー効率を向上させるための有望な解決策である。
本稿では,決定論的CR-NOMA IoTシステムにおけるスペクトル,エネルギー,時間資源管理について検討する。
論文 参考訳(メタデータ) (2021-09-17T08:55:48Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Training for Speech Recognition on Coprocessors [0.21485350418225244]
本稿では、この領域における最近の研究に触発されたディープニューラルネットワークに基づくASRモデルとその構築経験について述べる。
このモデルを、異なる予算カテゴリを表す3つのCPU-GPUコプロセッサプラットフォーム上で評価する。
ハードウェアアクセラレーションを利用することで,ハイエンド機器を使わずとも良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-03-22T11:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。