論文の概要: ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit
of Kaldi
- arxiv url: http://arxiv.org/abs/2104.01384v1
- Date: Sat, 3 Apr 2021 12:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:31:26.740439
- Title: ExKaldi-RT: A Real-Time Automatic Speech Recognition Extension Toolkit
of Kaldi
- Title(参考訳): ExKaldi-RT:Kaldiのリアルタイム音声認識拡張ツールキット
- Authors: Yu Wang, Chee Siang Leow, Akio Kobayashi, Takehito Utsuro, Hiromitsu
Nishizaki
- Abstract要約: 本稿では,Kaldi と Python 言語をベースとしたオンライン ASR ツールキット "ExKaldi-RT" について述べる。
ExKaldi-RTは、リアルタイムオーディオストリームパイプラインの提供、音響的特徴の抽出、リモート接続によるパケット送信、ニューラルネットワークによる音響確率の推定、オンラインデコーディングのためのツールを提供する。
- 参考スコア(独自算出の注目度): 7.9019242334556745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of open-source software is playing a remarkable role in
automatic speech recognition (ASR). Kaldi, for instance, is widely used to
develop state-of-the-art offline and online ASR systems. This paper describes
the "ExKaldi-RT," online ASR toolkit implemented based on Kaldi and Python
language. ExKaldi-RT provides tools for providing a real-time audio stream
pipeline, extracting acoustic features, transmitting packets with a remote
connection, estimating acoustic probabilities with a neural network, and online
decoding. While similar functions are available built on Kaldi, a key feature
of ExKaldi-RT is completely working on Python language, which has an
easy-to-use interface for online ASR system developers to exploit original
research, for example, by applying neural network-based signal processing and
acoustic model trained with deep learning frameworks. We performed benchmark
experiments on the minimum LibriSpeech corpus, and showed that ExKaldi-RT could
achieve competitive ASR performance in real-time.
- Abstract(参考訳): オープンソースソフトウェアの可用性は、自動音声認識(ASR)において顕著な役割を担っている。
例えば、kaldiは最先端のオフラインおよびオンラインasrシステムの開発に広く使われている。
本稿では,Kaldi と Python 言語をベースとしたオンライン ASR ツールキット "ExKaldi-RT" について述べる。
ExKaldi-RTは、リアルタイムオーディオストリームパイプラインの提供、音響的特徴の抽出、リモート接続によるパケット送信、ニューラルネットワークによる音響確率の推定、オンラインデコーディングのためのツールを提供する。
同様の機能はkaldi上に構築されているが、exkaldi-rtの重要な機能はpython言語に完全に組み込まれている。これはオンラインasrシステム開発者が、例えばニューラルネットワークベースの信号処理とディープラーニングフレームワークでトレーニングされた音響モデルを適用することで、独自の研究を活用できるような、使いやすいインターフェイスを備えている。
We performed benchmark experiment on the minimum LibriSpeech corpus, and showed that ExKaldi-RT could achieved competitive ASR performance in real-time。
関連論文リスト
- Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - Improving Low Resource Code-switched ASR using Augmented Code-switched
TTS [29.30430160611224]
近年,コードスイッチによる音声認識システムの構築が注目されている。
エンドツーエンドシステムは大量のラベル付き音声を必要とする。
絶対単語誤り率(WER)を最大5%まで低下させるASR性能の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-10-12T09:15:12Z) - PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for
End-to-End ASR [65.20342293605472]
PyChainは、カルディ自動音声認識(ASR)ツールキットにおいて、いわゆるエンフィチェーンモデルのための、エンドツーエンドの格子フリー最大相互情報(LF-MMI)トレーニングの実装である。
他のPyTorchやKaldiベースのASRツールキットとは異なり、PyChainは可能な限り柔軟で軽量に設計されている。
論文 参考訳(メタデータ) (2020-05-20T02:10:21Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。