Fugu-MT 論文翻訳(概要): Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text Dataset

論文の概要: Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text Dataset

arxiv url: http://arxiv.org/abs/2006.08274v2
Date: Sun, 26 Jul 2020 20:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 03:43:28.518497
Title: Exploration of End-to-End ASR for OpenSTT -- Russian Open Speech-to-Text Dataset
Title（参考訳）: ロシアのオープン音声テキストデータセットOpenSTTのためのエンドツーエンドASRの探索
Authors: Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov
Abstract要約: 本稿では,ロシア最大のオープンソース言語データセットであるOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。 CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。
参考スコア（独自算出の注目度）: 73.66530509749305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents an exploration of end-to-end automatic speech recognition systems (ASR) for the largest open-source Russian language data set -- OpenSTT. We evaluate different existing end-to-end approaches such as joint CTC/Attention, RNN-Transducer, and Transformer. All of them are compared with the strong hybrid ASR system based on LF-MMI TDNN-F acoustic model. For the three available validation sets (phone calls, YouTube, and books), our best end-to-end model achieves word error rate (WER) of 34.8%, 19.1%, and 18.1%, respectively. Under the same conditions, the hybridASR system demonstrates 33.5%, 20.9%, and 18.6% WER.
Abstract（参考訳）: 本稿では,ロシア最大のオープンソース言語データセットOpenSTTのエンドツーエンド自動音声認識システム(ASR)について検討する。 CTC/Attention, RNN-Transducer, Transformer など,既存のエンドツーエンドアプローチの評価を行った。これら全てをLF-MMI TDNN-F音響モデルに基づく強力なハイブリッドASRシステムと比較する。利用可能な3つの検証セット(電話、YouTube、書籍)について、私たちの最高のエンドツーエンドモデルは、それぞれ34.8%、19.1%、および18.1%のワードエラー率(WER)を達成する。同じ条件下で、ハイブリッドASRシステムは33.5%、20.9%、および18.6%のWERを示す。

関連論文リスト

One Whisper to Grade Them All [10.035434464829958]
複数部からなる第2言語テストの総合的自動発話評価(ASA)に対して,効率的なエンドツーエンドアプローチを提案する。我々のシステムの主な特徴は、4つの音声応答を1つのWhisper小エンコーダで処理できることである。このアーキテクチャは、書き起こしや部品ごとのモデルの必要性を排除し、推論時間を短縮し、ASAを大規模コンピュータ支援型言語学習システムに活用する。
論文参考訳（メタデータ） (2025-07-23T20:31:40Z)
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。台湾語マンダリン音声における枠組みの有効性を実証する。
論文参考訳（メタデータ） (2025-06-10T17:30:32Z)
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文参考訳（メタデータ） (2025-05-26T08:38:02Z)
An Exhaustive Evaluation of TTS- and VC-based Data Augmentation for ASR [12.197936305117407]
近年,テキスト音声変換 (TTS) や音声変換 (VC) による合成データによる自動音声認識システムの訓練データの増加が注目されている。我々は,最近提案されたフローベースTS/VCモデルを活用し,複数のASRモデルにより達成された単語誤り率(WER)に対する様々な音声属性の増大の影響を評価する。
論文参考訳（メタデータ） (2025-03-11T23:09:06Z)
Whisper Finetuning on Nepali Language [0.0]
本研究は,ネパール語の転写精度を向上させるために,OpenAIのWhisperモデルを微調整し,包括的で一般化したデータセットを作成することに焦点を当てる。 ASRデータセットと自己記録されたカスタムデータセットを多種多様なアクセント、方言、話し方で活用し、拡張によってさらに充実させます。我々のアプローチは、FleurのデータセットでトレーニングされたWhisperのベースラインモデルよりも優れており、中規模モデルでは36.2%、中型モデルでは23.8%のWER削減を実現している。
論文参考訳（メタデータ） (2024-11-19T15:55:56Z)
Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。 DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文参考訳（メタデータ） (2024-07-03T08:33:39Z)
Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文参考訳（メタデータ） (2024-04-12T10:12:38Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Data Augmentation for End-to-end Code-switching Speech Recognition [54.0507000473827]
コードスイッチングデータ拡張のための3つの新しいアプローチが提案されている。既存のコードスイッチングデータによる音声スプライシングと、単語翻訳や単語挿入によって生成された新しいコードスイッチングテキストによるTS。 200時間のMandarin-Britishコードスイッチングデータセットの実験では、コードスイッチングASRを個別に大幅に改善した。
論文参考訳（メタデータ） (2020-11-04T07:12:44Z)
You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文参考訳（メタデータ） (2020-05-14T17:24:57Z)
Jointly Trained Transformers models for Spoken Language Translation [2.3886615435250302]
この研究は、補助的な損失としてASR目標を持つSLTシステムを訓練し、両方のネットワークは神経隠れ表現を介して接続される。このアーキテクチャはBLEUから36.8から44.5に改善されている。すべての実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告される。
論文参考訳（メタデータ） (2020-04-25T11:28:39Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。