論文の概要: Cost Analysis of Human-corrected Transcription for Predominately Oral Languages
- arxiv url: http://arxiv.org/abs/2510.12781v1
- Date: Tue, 14 Oct 2025 17:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.4346
- Title: Cost Analysis of Human-corrected Transcription for Predominately Oral Languages
- Title(参考訳): 先行した口頭言語における人文修正転写のコスト分析
- Authors: Yacouba Diarra, Nouhoum Souleymane Coulibaly, Michael Leventhal,
- Abstract要約: 実験室の条件下で1時間の音声データを正確に書き起こすのに30時間かかる。
フィールド条件下で1時間の音声データを正確に書き起こすには36時間を要する。
- 参考スコア(独自算出の注目度): 0.8739101659113154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating speech datasets for low-resource languages is a critical yet poorly understood challenge, particularly regarding the actual cost in human labor. This paper investigates the time and complexity required to produce high-quality annotated speech data for a subset of low-resource languages, low literacy Predominately Oral Languages, focusing on Bambara, a Manding language of Mali. Through a one-month field study involving ten transcribers with native proficiency, we analyze the correction of ASR-generated transcriptions of 53 hours of Bambara voice data. We report that it takes, on average, 30 hours of human labor to accurately transcribe one hour of speech data under laboratory conditions and 36 hours under field conditions. The study provides a baseline and practical insights for a large class of languages with comparable profiles undertaking the creation of NLP resources.
- Abstract(参考訳): 低リソース言語のための音声データセットを作成することは、特に人的労働の実際のコストに関して、批判的だが理解されていない課題である。
本稿では,マリのマンディング言語Bambaraに着目し,低リソース言語,低リテラシーを主とする口頭言語に対する高品質なアノテート音声データ作成に必要な時間と複雑さについて検討する。
現地の習熟度をもつ10人の翻訳者を対象とした1ヶ月のフィールドスタディを通じて, バンバラ音声データ53時間のASR生成転写の補正を解析した。
我々は,実験室条件下で1時間の音声データを正確に書き起こすには平均30時間,現場条件下で36時間を要することを報告した。
この研究は、NLPリソースの創出に匹敵するプロファイルを持つ多数の言語に対して、ベースラインと実践的な洞察を提供する。
関連論文リスト
- How much speech data is necessary for ASR in African languages? An evaluation of data scaling in Kinyarwanda and Kikuyu [0.5678475267829229]
低リソースアフリカ語の自動音声認識システムの開発は, 音声データに制限があるため, 依然として困難である。
OpenAIのWhisperのような大規模多言語モデルの最近の進歩は、低リソースのASR開発に有望な経路を提供する。
2つのバントゥー言語に対する包括的実験によりWhisperの性能を評価する。
論文 参考訳(メタデータ) (2025-10-08T16:55:28Z) - Breaking the Transcription Bottleneck: Fine-tuning ASR Models for Extremely Low-Resource Fieldwork Languages [1.758729398520438]
MMS と XLS-R の2つの細調整された多言語 ASR モデルの性能を,5つの型式的に多様な低リソース言語でベンチマークした。
XLS-Rはトレーニングデータが1時間を超えるとパリティ性能を示すのに対し,MMSは極端に少ないトレーニングデータが得られる場合に最適であることがわかった。
論文 参考訳(メタデータ) (2025-06-20T19:59:49Z) - NaijaNLP: A Survey of Nigerian Low-Resource Languages [0.0]
3つの言語(Hausa、Yorub'a、Igbo)がナイジェリアの話し言葉の約60%を占めている。
これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。
本研究は,ナイジェリアの3大言語を対象とした低リソースNLP(LR-NLP)研究の進展を概観する。
論文 参考訳(メタデータ) (2025-02-27T05:48:51Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Speech Recognition for Endangered and Extinct Samoyedic languages [0.32228025627337864]
本研究では,絶滅危惧言語と絶滅危惧言語を用いた音声認識実験を行う。
私たちの知る限りでは、絶滅言語のために機能的なASRシステムが構築されたのはこれが初めてです。
論文 参考訳(メタデータ) (2020-12-09T21:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。