論文の概要: Romanian Speech Recognition Experiments from the ROBIN Project
- arxiv url: http://arxiv.org/abs/2111.12028v1
- Date: Tue, 23 Nov 2021 17:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 16:06:18.396904
- Title: Romanian Speech Recognition Experiments from the ROBIN Project
- Title(参考訳): ROBINプロジェクトによるルーマニア語音声認識実験
- Authors: Andrei-Marius Avram, Vasile P\u{a}i\c{s}, Dan Tufi\c{s}
- Abstract要約: 本稿では,高速(ネットワーク自体から100ms未満のレイテンシ)に焦点をあてたディープニューラルネットワークを用いた音声認識実験について述べる。
重要な特徴の1つは低レイテンシであるが、最終的なディープニューラルネットワークモデルは、ルーマニア語を認識するための技術結果の状態を達成している。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the fundamental functionalities for accepting a socially assistive
robot is its communication capabilities with other agents in the environment.
In the context of the ROBIN project, situational dialogue through voice
interaction with a robot was investigated. This paper presents different speech
recognition experiments with deep neural networks focusing on producing fast
(under 100ms latency from the network itself), while still reliable models.
Even though one of the key desired characteristics is low latency, the final
deep neural network model achieves state of the art results for recognizing
Romanian language, obtaining a 9.91% word error rate (WER), when combined with
a language model, thus improving over the previous results while offering at
the same time an improved runtime performance. Additionally, we explore two
modules for correcting the ASR output (hyphen and capitalization restoration
and unknown words correction), targeting the ROBIN project's goals (dialogue in
closed micro-worlds). We design a modular architecture based on APIs allowing
an integration engine (either in the robot or external) to chain together the
available modules as needed. Finally, we test the proposed design by
integrating it in the RELATE platform and making the ASR service available to
web users by either uploading a file or recording new speech.
- Abstract(参考訳): 社会支援ロボットを受け入れる基本的な機能の1つは、環境内の他のエージェントとのコミュニケーション能力である。
ROBINプロジェクトでは,ロボットとの音声対話による状況対話について検討した。
本稿では,ニューラルネットワークを用いた音声認識実験において,高速な(ネットワーク自体から100ms以下)レイテンシを実現することに着目し,信頼性の高いモデルを提案する。
望ましい特徴の1つは低レイテンシであるにもかかわらず、最終的なディープニューラルネットワークモデルはルーマニア語認識のための最先端の成果を達成し、言語モデルと組み合わせて9.91%の単語誤り率(wer)を得る。
さらに、ROBINプロジェクトの目標(閉鎖マイクロワールドでの対話)をターゲットに、ASR出力(ハイフンとキャピタライゼーション復元、未知語補正)を補正するための2つのモジュールを探索する。
統合エンジン(ロボットでも外部でも)が必要に応じて利用可能なモジュールをチェーンできるAPIに基づいたモジュールアーキテクチャを設計します。
最後に、提案した設計をRELATEプラットフォームに統合し、ファイルをアップロードするか、新しい音声を録音することで、ASRサービスをWebユーザに提供することでテストする。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - SAN: a robust end-to-end ASR model architecture [0.0]
自動音声認識のためのSiamese Adversarial Network (SAN)アーキテクチャ
SANは音声特徴入力を区別するために2つのサブネットワークを構築し、これらのサブネットワークの出力分布を統合するために損失を導入する。
音声認識タスクのための複数のデータセット上で,SANモデルを用いて数値実験を行う。
論文 参考訳(メタデータ) (2022-10-27T09:36:25Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。