論文の概要: Attention based end to end Speech Recognition for Voice Search in Hindi
and English
- arxiv url: http://arxiv.org/abs/2111.10208v1
- Date: Mon, 15 Nov 2021 18:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-28 18:11:21.909208
- Title: Attention based end to end Speech Recognition for Voice Search in Hindi
and English
- Title(参考訳): ヒンディー語と英語における音声検索のための注意に基づくエンドツーエンド音声認識
- Authors: Raviraj Joshi, Venkateshan Kannan
- Abstract要約: 本稿では,eコマースプラットフォームにおける音声検索機能の文脈における音声認識(ASR)の取り組みについて述べる。
我々は、革新的なアプローチを取り入れるために、モデル設計とアテンションメカニズムを構築し、拡張する。
本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe here our work with automatic speech recognition (ASR) in the
context of voice search functionality on the Flipkart e-Commerce platform.
Starting with the deep learning architecture of Listen-Attend-Spell (LAS), we
build upon and expand the model design and attention mechanisms to incorporate
innovative approaches including multi-objective training, multi-pass training,
and external rescoring using language models and phoneme based losses. We
report a relative WER improvement of 15.7% on top of state-of-the-art LAS
models using these modifications. Overall, we report an improvement of 36.9%
over the phoneme-CTC system. The paper also provides an overview of different
components that can be tuned in a LAS-based system.
- Abstract(参考訳): 本稿では,Flipkart e-Commerceプラットフォームにおける音声検索機能の文脈における音声認識(ASR)について述べる。
本稿では,Learen-Attend-Spell (LAS) のディープラーニングアーキテクチャをベースとして,多目的学習,マルチパス訓練,言語モデルと音素に基づく損失を用いた外部再構成など,革新的なアプローチを取り入れたモデル設計とアテンション機構を構築し,拡張する。
本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。
全体として,音素CTCシステムよりも36.9%改善した。
この論文は、LASベースのシステムで調整できる様々なコンポーネントの概要も提供している。
関連論文リスト
- Multilingual Visual Speech Recognition with a Single Model by Learning
with Discrete Visual Speech Units [59.84564095008798]
本稿では,1つのモデルを用いた文レベル多言語視覚音声認識について検討する。
近年の音声音声ユニットの成功により、自己監督型視覚音声モデルから抽出した視覚音声特徴を識別して、提案した視覚音声ユニットを得る。
我々は、従来の言語固有のVSRモデルに匹敵する性能を1つの訓練モデルで達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - Allophant: Cross-lingual Phoneme Recognition with Articulatory
Attributes [0.0]
アロファントは多言語音素認識器である。
ターゲット言語への言語間移動には音素の在庫しか必要としない。
AllophoibleはPHOIBLEデータベースの拡張である。
論文 参考訳(メタデータ) (2023-06-07T10:11:09Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Lip-Listening: Mixing Senses to Understand Lips using Cross Modality
Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。
本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文 参考訳(メタデータ) (2022-06-05T15:47:54Z) - Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文 参考訳(メタデータ) (2021-12-13T15:49:36Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。