論文の概要: Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges
- arxiv url: http://arxiv.org/abs/2410.03458v1
- Date: Fri, 4 Oct 2024 14:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 22:09:37.826283
- Title: Multi-Dialect Vietnamese: Task, Dataset, Baseline Models and Challenges
- Title(参考訳): 多次元ベトナム:タスク、データセット、ベースラインモデル、課題
- Authors: Nguyen Van Dinh, Thanh Chi Dang, Luan Thanh Nguyen, Kiet Van Nguyen,
- Abstract要約: ベトナム全土で話されている63の方言の多様性を包括的に分析したベトナム語多方言データセットについて紹介する。
我々のデータセットは、約19,000の発話からなる102.56時間の音声からなり、関連するテキストには120万以上の単語が含まれている。
- 参考スコア(独自算出の注目度): 0.964547614383472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vietnamese, a low-resource language, is typically categorized into three primary dialect groups that belong to Northern, Central, and Southern Vietnam. However, each province within these regions exhibits its own distinct pronunciation variations. Despite the existence of various speech recognition datasets, none of them has provided a fine-grained classification of the 63 dialects specific to individual provinces of Vietnam. To address this gap, we introduce Vietnamese Multi-Dialect (ViMD) dataset, a novel comprehensive dataset capturing the rich diversity of 63 provincial dialects spoken across Vietnam. Our dataset comprises 102.56 hours of audio, consisting of approximately 19,000 utterances, and the associated transcripts contain over 1.2 million words. To provide benchmarks and simultaneously demonstrate the challenges of our dataset, we fine-tune state-of-the-art pre-trained models for two downstream tasks: (1) Dialect identification and (2) Speech recognition. The empirical results suggest two implications including the influence of geographical factors on dialects, and the constraints of current approaches in speech recognition tasks involving multi-dialect speech data. Our dataset is available for research purposes.
- Abstract(参考訳): 低資源語であるベトナム語は通常、北ベトナム、中央ベトナム、南ベトナムに属する3つの主要な方言群に分類される。
しかし、これらの地域内の各州は独自の発音のバリエーションを持っている。
様々な音声認識データセットが存在するにもかかわらず、ベトナムの個々の州に特有の63の方言の詳細な分類を提供していない。
このギャップに対処するため、ベトナム全土で話されている63の地方方言の多様性を包括的に分析したベトナム多方言データセット(ViMD)を導入した。
我々のデータセットは、約19,000の発話からなる102.56時間の音声からなり、関連するテキストには120万以上の単語が含まれている。
ベンチマークを行い、データセットの課題を同時に示すために、(1)識別と(2)音声認識の2つの下流タスクに対して、最先端のトレーニング済みモデルを微調整する。
実験結果から,地理的要因が方言に与える影響と,多言語音声データを含む音声認識タスクにおける現在のアプローチの制約の2つが示唆された。
私たちのデータセットは研究目的で利用可能です。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Exploring Diachronic and Diatopic Changes in Dialect Continua: Tasks, Datasets and Challenges [2.572144535177391]
我々は3つの言語族(スラヴ語、ロマンス語、ゲルマン語)から5つの方言にまたがる9つのタスクとデータセットを批判的に評価する。
本稿では,方言使用の経時的変化,方言データセットの信頼性,話者特性の重要性,方言の限られた範囲,データ収集における倫理的配慮に関する5つのオープンな課題を概説する。
言語の種類や方言の包括的計算手法やデータセットに関する今後の研究に光を当てることを願っています。
論文 参考訳(メタデータ) (2024-07-04T15:38:38Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z) - Finnish Dialect Identification: The Effect of Audio and Text [1.0896567381206714]
本稿では,話者の方言を自動的に検出する最初の手法を提案する。
以上の結果から,両モードを組み合わせることで,最高の精度が得られていることがわかった。
論文 参考訳(メタデータ) (2021-11-06T04:25:53Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。