Fugu-MT 論文翻訳(概要): Attention based end to end Speech Recognition for Voice Search in Hindi and English

論文の概要: Attention based end to end Speech Recognition for Voice Search in Hindi and English

arxiv url: http://arxiv.org/abs/2111.10208v1
Date: Mon, 15 Nov 2021 18:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-28 18:11:21.909208
Title: Attention based end to end Speech Recognition for Voice Search in Hindi and English
Title（参考訳）: ヒンディー語と英語における音声検索のための注意に基づくエンドツーエンド音声認識
Authors: Raviraj Joshi, Venkateshan Kannan
Abstract要約: 本稿では,eコマースプラットフォームにおける音声検索機能の文脈における音声認識(ASR)の取り組みについて述べる。我々は、革新的なアプローチを取り入れるために、モデル設計とアテンションメカニズムを構築し、拡張する。本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe here our work with automatic speech recognition (ASR) in the context of voice search functionality on the Flipkart e-Commerce platform. Starting with the deep learning architecture of Listen-Attend-Spell (LAS), we build upon and expand the model design and attention mechanisms to incorporate innovative approaches including multi-objective training, multi-pass training, and external rescoring using language models and phoneme based losses. We report a relative WER improvement of 15.7% on top of state-of-the-art LAS models using these modifications. Overall, we report an improvement of 36.9% over the phoneme-CTC system. The paper also provides an overview of different components that can be tuned in a LAS-based system.
Abstract（参考訳）: 本稿では,Flipkart e-Commerceプラットフォームにおける音声検索機能の文脈における音声認識(ASR)について述べる。本稿では,Learen-Attend-Spell (LAS) のディープラーニングアーキテクチャをベースとして,多目的学習,マルチパス訓練,言語モデルと音素に基づく損失を用いた外部再構成など,革新的なアプローチを取り入れたモデル設計とアテンション機構を構築し,拡張する。本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。全体として,音素CTCシステムよりも36.9%改善した。この論文は、LASベースのシステムで調整できる様々なコンポーネントの概要も提供している。

関連論文リスト

Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文参考訳（メタデータ） (2024-10-21T20:55:33Z)
TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文参考訳（メタデータ） (2024-05-03T14:25:21Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。視覚音声単位を用いた新しい学習手法を提案する。我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2024-01-18T08:46:02Z)
Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。 LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文参考訳（メタデータ） (2023-02-22T10:06:37Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-27T11:24:40Z)
Lip-Listening: Mixing Senses to Understand Lips using Cross Modality Knowledge Distillation for Word-Based Models [0.03499870393443267]
この研究は、最近の最先端の単語ベースのリリーディングモデルに基づいて、シーケンスレベルとフレームレベルの知識蒸留(KD)をシステムに統合する。本稿では,音声音声認識システムから視覚音声認識システムへ音声認識機能を伝達する手法を提案する。
論文参考訳（メタデータ） (2022-06-05T15:47:54Z)
Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文参考訳（メタデータ） (2021-12-13T15:49:36Z)
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文参考訳（メタデータ） (2021-08-30T07:00:28Z)
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。 IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文参考訳（メタデータ） (2021-04-20T17:10:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。