論文の概要: Exploiting Beam Search Confidence for Energy-Efficient Speech
Recognition
- arxiv url: http://arxiv.org/abs/2101.09083v1
- Date: Fri, 22 Jan 2021 12:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:19:05.219046
- Title: Exploiting Beam Search Confidence for Energy-Efficient Speech
Recognition
- Title(参考訳): エネルギー効率の良い音声認識のための爆発的ビーム探索信頼度
- Authors: Dennis Pinto, Jose-Mar\'ia Arnau, Antonio Gonz\'alez
- Abstract要約: エッジデバイス用低消費電力ハードウェアを中心に、ASRシステムのエネルギー効率と性能を向上させる技術を提案します。
これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%と25.9%削減し、無視可能な精度の損失を伴います。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With computers getting more and more powerful and integrated in our daily
lives, the focus is increasingly shifting towards more human-friendly
interfaces, making Automatic Speech Recognition (ASR) a central player as the
ideal means of interaction with machines. Consequently, interest in speech
technology has grown in the last few years, with more systems being proposed
and higher accuracy levels being achieved, even surpassing \textit{Human
Accuracy}. While ASR systems become increasingly powerful, the computational
complexity also increases, and the hardware support have to keep pace. In this
paper, we propose a technique to improve the energy-efficiency and performance
of ASR systems, focusing on low-power hardware for edge devices. We focus on
optimizing the DNN-based Acoustic Model evaluation, as we have observed it to
be the main bottleneck in state-of-the-art ASR systems, by leveraging run-time
information from the Beam Search. By doing so, we reduce energy and execution
time of the acoustic model evaluation by 25.6% and 25.9%, respectively, with
negligible accuracy loss.
- Abstract(参考訳): コンピュータが日々の生活にますます強力で統合されていくにつれて、焦点はますます人間フレンドリーなインターフェースへとシフトし、自動音声認識(ASR)が機械との対話の理想的な手段となる。
その結果、ここ数年で音声技術への関心が高まり、より多くのシステムが提案され、より高い精度が達成され、さらには \textit{human accuracy} を超えている。
ASRシステムはますます強力になるが、計算の複雑さも増大し、ハードウェアサポートはペースを維持する必要がある。
本稿では,エッジデバイス用低消費電力ハードウェアに着目し,ASRシステムのエネルギー効率と性能を向上させる手法を提案する。
我々は,dnnに基づく音響モデル評価の最適化に重点を置いており,ビームサーチからの実行時間情報を活用することで,最先端asrシステムにおける主要なボトルネックであると考えられる。
これにより、音響モデル評価のエネルギーと実行時間をそれぞれ25.6%削減し、25.9%削減する。
関連論文リスト
- Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis [3.210706100833053]
我々は、従来のAFEモデルをOpen AIのWhisperに置き換える、完全に統合されたシステムを提案し、実装する。
我々はWhisperが処理を高速化するだけでなく、レンダリング品質の特定の側面を改善し、より現実的で応答性の高い対話型対話を実現することを示した。
論文 参考訳(メタデータ) (2024-11-20T11:18:05Z) - Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment [0.0]
本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。
その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
論文 参考訳(メタデータ) (2024-05-02T05:09:07Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - CARMA: Context-Aware Runtime Reconfiguration for Energy-Efficient Sensor
Fusion [11.313017866190622]
CARMA: 実行時にコンテキストを用いて計算フローを再構成するコンテキスト認識型センサ融合手法を提案する。
CARMAは、性能を損なうことなく、多感性物体検出器によって使用されるエネルギーを著しく削減する。
我々は,複数の文脈識別戦略を評価し,新しいシステム全体のエネルギーパフォーマンス共同最適化を提案し,シナリオ固有の知覚性能を評価する。
論文 参考訳(メタデータ) (2023-06-27T19:00:07Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Deep Reinforcement Learning Based Multidimensional Resource Management
for Energy Harvesting Cognitive NOMA Communications [64.1076645382049]
エネルギー収穫(EH)、認知無線(CR)、非直交多重アクセス(NOMA)の組み合わせはエネルギー効率を向上させるための有望な解決策である。
本稿では,決定論的CR-NOMA IoTシステムにおけるスペクトル,エネルギー,時間資源管理について検討する。
論文 参考訳(メタデータ) (2021-09-17T08:55:48Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Training for Speech Recognition on Coprocessors [0.21485350418225244]
本稿では、この領域における最近の研究に触発されたディープニューラルネットワークに基づくASRモデルとその構築経験について述べる。
このモデルを、異なる予算カテゴリを表す3つのCPU-GPUコプロセッサプラットフォーム上で評価する。
ハードウェアアクセラレーションを利用することで,ハイエンド機器を使わずとも良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-03-22T11:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。