Fugu-MT 論文翻訳(概要): ManWav: The First Manchu ASR Model

論文の概要: ManWav: The First Manchu ASR Model

arxiv url: http://arxiv.org/abs/2406.13502v1
Date: Wed, 19 Jun 2024 12:47:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 19:43:36.562503
Title: ManWav: The First Manchu ASR Model
Title（参考訳）: ManWav:最初のManchu ASRモデル
Authors: Jean Seo, Minha Kang, Sungjoo Byun, Sangah Lee,
Abstract要約: 本研究は,高資源言語と低資源言語の間の音声認識研究におけるギャップの拡大に対処する。満州は、最先端技術にアクセスする際の言語コミュニティの限界が直面する課題を実証している。 We introduced the first-ever Manchu ASR model ManWav, using Wav2Vec2-XLSR-53。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study addresses the widening gap in Automatic Speech Recognition (ASR) research between high resource and extremely low resource languages, with a particular focus on Manchu, a critically endangered language. Manchu exemplifies the challenges faced by marginalized linguistic communities in accessing state-of-the-art technologies. In a pioneering effort, we introduce the first-ever Manchu ASR model ManWav, leveraging Wav2Vec2-XLSR-53. The results of the first Manchu ASR is promising, especially when trained with our augmented data. Wav2Vec2-XLSR-53 fine-tuned with augmented data demonstrates a 0.02 drop in CER and 0.13 drop in WER compared to the same base model fine-tuned with original data.
Abstract（参考訳）: 本研究は,高資源言語と低資源言語の間の自動音声認識(ASR)研究において,特に危惧言語である満洲に焦点をあてる。満州は、最先端技術にアクセスする際の言語コミュニティの限界が直面する課題を実証している。先駆的な取り組みとして、Wav2Vec2-XLSR-53を活用して、最初のManchu ASRモデルManWavを紹介する。最初の満州ASRの結果は、特に我々の拡張現実データでトレーニングされた場合、有望である。 Wav2Vec2-XLSR-53の強化データによる微調整は、オリジナルのデータで微調整された同じベースモデルと比較して、CERの0.02滴、WERの0.13滴の微調整を示している。

関連論文リスト

A Deep Learning Automatic Speech Recognition Model for Shona Language [0.0]
この研究は、限られた訓練データ、ラベル付きデータの欠如、ショーナスピーチに存在する複雑な声調ニュアンスによる課題に対処することを目的としている。 ASRシステムはワード誤り率29%、音素誤り率12%、全体的な精度74%という驚くべき結果を得た。
論文参考訳（メタデータ） (2025-07-28T20:57:26Z)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。 Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳（メタデータ） (2025-03-24T09:39:41Z)
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages [0.0]
本稿では,低リソース言語における音声認識(ASR)の性能向上を目的とした,新しい多段階微調整手法を提案する。本稿では,言語的に類似した言語にモデルを逐次適応させることにより,限られたデジタルリソースを持つ言語を対象としたASRモデルを構築することを目的とする。私たちは、南インドの西ガーツで約1万人が話していたドラヴィダ語であるマラサール語でこれを実験した。
論文参考訳（メタデータ） (2024-11-07T09:57:57Z)
End-to-End Transformer-based Automatic Speech Recognition for Northern Kurdish: A Pioneering Approach [1.3689715712707342]
本稿では、中東で話されている低リソース言語である北クルド語(クルマンジ語)に対する事前訓練されたASRモデルであるWhisperの有効性について検討する。約68時間の検証データを含む北クルド語微調整音声コーパスを用いて,追加のモジュール微調整戦略がASR精度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-19T11:46:30Z)
Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。 DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文参考訳（メタデータ） (2024-07-03T08:33:39Z)
Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文参考訳（メタデータ） (2024-04-12T10:12:38Z)
Identity-Seeking Self-Supervised Representation Learning for Generalizable Person Re-identification [55.1738496692892]
従来のDG ReID法では、アノテーションのコストが高いため、トレーニングにラベル付きデータを限定的に使用していた。本稿では,ISR(Identity-seeking Self-supervised Representation Learning)法を提案する。 ISRは、最大重み付き二部マッチング問題としてインスタンスアソシエーションをモデル化することにより、フレーム間画像から正のペアを構築する。 ISRは市場1501で87.0%、MSMT17で56.4%、それぞれ5.0%、19.5%となっている。
論文参考訳（メタデータ） (2023-08-17T09:46:27Z)
End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。 E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文参考訳（メタデータ） (2023-03-03T01:46:41Z)
An Experimental Study on Private Aggregation of Teacher Ensemble Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文参考訳（メタデータ） (2022-10-11T16:55:54Z)
Data Augmentation for Low-Resource Quechua ASR Improvement [2.260916274164351]
ディープラーニングの手法により、英語のASRでは単語エラー率が5%未満のシステムをデプロイできるようになった。いわゆる低リソース言語では,既存のリソースに基づいて新たなリソースを作成する手法が検討されている。本稿では,低リソースおよび凝集度言語に対するASRモデルの結果を改善するためのデータ拡張手法について述べる。
論文参考訳（メタデータ） (2022-07-14T12:49:15Z)
LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文参考訳（メタデータ） (2022-01-20T15:44:37Z)
Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。 GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文参考訳（メタデータ） (2021-03-10T17:40:48Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。