論文の概要: Reduce and Reconstruct: ASR for Low-Resource Phonetic Languages
- arxiv url: http://arxiv.org/abs/2010.09322v2
- Date: Thu, 3 Jun 2021 10:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:20:36.332960
- Title: Reduce and Reconstruct: ASR for Low-Resource Phonetic Languages
- Title(参考訳): reduce and reconstruction: 低リソース音声言語のためのasr
- Authors: Anuj Diwan, Preethi Jyothi
- Abstract要約: 2つの言語で音響的に類似したグラフエムの集合を同定する。
まず、言語的に意味のある減算を用いて、ASRシステムの出力アルファベットを減少させる。
次に、スタンドアロンモジュールを使用して元のアルファベットを再構築する。
- 参考スコア(独自算出の注目度): 22.69292275484318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a seemingly simple but effective technique to improve
low-resource ASR systems for phonetic languages. By identifying sets of
acoustically similar graphemes in these languages, we first reduce the output
alphabet of the ASR system using linguistically meaningful reductions and then
reconstruct the original alphabet using a standalone module. We demonstrate
that this lessens the burden and improves the performance of low-resource
end-to-end ASR systems (because only reduced-alphabet predictions are needed)
and that it is possible to design a very simple but effective reconstruction
module that recovers sequences in the original alphabet from sequences in the
reduced alphabet. We present a finite state transducer-based reconstruction
module that operates on the 1-best ASR hypothesis in the reduced alphabet. We
demonstrate the efficacy of our proposed technique using ASR systems for two
Indian languages, Gujarati and Telugu. With access to only 10 hrs of speech
data, we obtain relative WER reductions of up to 7% compared to systems that do
not use any reduction.
- Abstract(参考訳): この研究は、音声言語のための低リソースASRシステムを改善するための、一見シンプルだが効果的な手法を示す。
これらの言語で音響的に類似したグラフエムの集合を同定することにより、まず言語的に意味のある還元を用いてASRシステムの出力アルファベットを減らし、次にスタンドアロンモジュールを用いて元のアルファベットを再構築する。
これにより、低リソースのエンド・ツー・エンドのasrシステムの性能が低下し(低アルファベット予測が必要なため)、低アルファベットのシーケンスから元のアルファベットのシーケンスを復元する非常に単純で効果的な再構築モジュールを設計できることを実証する。
本稿では, 有限状態トランスデューサを用いた復調モジュールを提案する。
インドの2言語,Gujarati と Telugu に対して,ASR システムを用いた提案手法の有効性を実証した。
音声データに10時間しかアクセスできないため, 使用しないシステムと比較して, WERの相対的な削減率は7%である。
関連論文リスト
- Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages [51.12146889808824]
Meta-Whisperは、低リソース言語の自動音声認識を改善するための新しいアプローチである。
これにより、Whisperは、広範囲の微調整をすることなく、馴染みのない言語で音声を認識できる能力を高める。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction [34.32834323898953]
自動音声認識(ASR)のための生成誤り訂正(GER)は、ASRの誤りに対処するための意味的および音声学的改善を提供することを目的としている。
本研究では,LLMをベースとしたGERが日本語処理能力の強化と拡張を実現し,0.9-2.6kテキスト発声による日本語ASRのGERベンチマークを初めて提示する。
また、入力側で複数のシステム仮説を統合し、出力側で複数のLSMを補正し、それらをマージすることで、新しいマルチパス拡張生成誤差補正(MPA GER)を導入する。
論文 参考訳(メタデータ) (2024-08-29T00:18:12Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Making More of Little Data: Improving Low-Resource Automatic Speech
Recognition Using Data Augmentation [20.45373308116162]
この研究は4つのタイプ学的に多様なマイノリティ言語または言語変種(西ゲルマン語:Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に焦点を当てている。
これら4言語すべてに対して、利用可能な人書きデータでトレーニングされたASRシステムを転写に使用し、元のデータと組み合わせて新しいASRシステムを訓練する自己学習システムの使用について検討する。
自己学習アプローチを用いることで、24分でトレーニングされたASRシステムと比較して、改善された性能(相対的なWER削減率)が20.5%に達することが判明した。
論文 参考訳(メタデータ) (2023-05-18T13:20:38Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。
いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。
本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文 参考訳(メタデータ) (2022-07-14T12:49:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。