論文の概要: Data Quality Issues in Multilingual Speech Datasets: The Need for Sociolinguistic Awareness and Proactive Language Planning
- arxiv url: http://arxiv.org/abs/2506.17525v1
- Date: Sat, 21 Jun 2025 00:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.458835
- Title: Data Quality Issues in Multilingual Speech Datasets: The Need for Sociolinguistic Awareness and Proactive Language Planning
- Title(参考訳): 多言語音声データセットにおけるデータ品質問題:社会言語学的認識と積極的言語計画の必要性
- Authors: Mingfei Lau, Qian Chen, Yeming Fang, Tingting Xu, Tongzhou Chen, Pavel Golik,
- Abstract要約: いくつかの言語では、Mozilla Common Voice 17.0、FLEURS、VoxPopuliデータセットが重大な品質問題に悩まされている。
マクロレベルの問題は、制度化されていない、しばしばリソース不足の言語でより一般的であることが分かりました。
今後のデータセット開発においてこれらの問題を緩和するためのガイドラインと勧告を提案する。
- 参考スコア(独自算出の注目度): 5.730241441689874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our quality audit for three widely used public multilingual speech datasets - Mozilla Common Voice 17.0, FLEURS, and VoxPopuli - shows that in some languages, these datasets suffer from significant quality issues. We believe addressing these issues will make these datasets more useful as training and evaluation sets, and improve downstream models. We divide these quality issues into two categories: micro-level and macro-level. We find that macro-level issues are more prevalent in less institutionalized, often under-resourced languages. We provide a case analysis of Taiwanese Southern Min (nan_tw) that highlights the need for proactive language planning (e.g. orthography prescriptions, dialect boundary definition) and enhanced data quality control in the process of Automatic Speech Recognition (ASR) dataset creation. We conclude by proposing guidelines and recommendations to mitigate these issues in future dataset development, emphasizing the importance of sociolinguistic awareness in creating robust and reliable speech data resources.
- Abstract(参考訳): Mozilla Common Voice 17.0、FLEURS、VoxPopuliの3つの一般的な多言語音声データセットの品質監査は、いくつかの言語でこれらのデータセットが重大な品質問題に悩まされていることを示している。
これらの問題に対処することで、これらのデータセットはトレーニングや評価セットとしてより有用になり、下流モデルが改善されると考えています。
これらの品質問題を,マイクロレベルとマクロレベルという2つのカテゴリに分けた。
マクロレベルの問題は、制度化されていない、しばしばリソース不足の言語でより一般的であることが分かりました。
本稿では, 台湾南民(nan_tw)の事例分析を行い, 自動音声認識(ASR)データセット作成プロセスにおいて, プロアクティブ言語計画の必要性(例えば, 正書法処方, 方言境界定義)とデータ品質制御の強化を強調した。
我々は,これらの課題を今後のデータセット開発において緩和するためのガイドラインと勧告を提案し,堅牢で信頼性の高い音声データ資源を作成する上での社会言語学的認識の重要性を強調した。
関連論文リスト
- SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
我々は9つの低リソース言語にまたがる多文語を含む文のデータセットをリリースする。
データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。
その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-29T17:48:08Z) - MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。
このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-02-25T08:53:27Z) - Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
誤報は言語境界を超越し、モデレーションシステムに挑戦する。
誤情報検出に対するほとんどのアプローチはモノリンガルであり、高リソース言語に焦点を当てている。
この調査は、低リソース言語における誤情報検出に関する現在の研究の概要を概観する。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。