論文の概要: Breaking the Transcription Bottleneck: Fine-tuning ASR Models for Extremely Low-Resource Fieldwork Languages
- arxiv url: http://arxiv.org/abs/2506.17459v1
- Date: Fri, 20 Jun 2025 19:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.42606
- Title: Breaking the Transcription Bottleneck: Fine-tuning ASR Models for Extremely Low-Resource Fieldwork Languages
- Title(参考訳): 転写ボトルネックを破る:極低リソースフィールドワーク言語のための微調整型ASRモデル
- Authors: Siyu Liang, Gina-Anne Levow,
- Abstract要約: MMS と XLS-R の2つの細調整された多言語 ASR モデルの性能を,5つの型式的に多様な低リソース言語でベンチマークした。
XLS-Rはトレーニングデータが1時間を超えるとパリティ性能を示すのに対し,MMSは極端に少ないトレーニングデータが得られる場合に最適であることがわかった。
- 参考スコア(独自算出の注目度): 1.758729398520438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) has reached impressive accuracy for high-resource languages, yet its utility in linguistic fieldwork remains limited. Recordings collected in fieldwork contexts present unique challenges, including spontaneous speech, environmental noise, and severely constrained datasets from under-documented languages. In this paper, we benchmark the performance of two fine-tuned multilingual ASR models, MMS and XLS-R, on five typologically diverse low-resource languages with control of training data duration. Our findings show that MMS is best suited when extremely small amounts of training data are available, whereas XLS-R shows parity performance once training data exceed one hour. We provide linguistically grounded analysis for further provide insights towards practical guidelines for field linguists, highlighting reproducible ASR adaptation approaches to mitigate the transcription bottleneck in language documentation.
- Abstract(参考訳): ASR(Automatic Speech Recognition)は、高解像度の言語に対して印象的な精度に達したが、言語分野におけるその有用性は依然として限られている。
フィールドワークの文脈で収集された記録には、自然発声、環境騒音、文書化されていない言語からの厳しい制約のあるデータセットなど、ユニークな課題がある。
本稿では,MMS と XLS-R の2つの微調整型多言語 ASR モデルの性能を,トレーニングデータ長を制御した5つのタイプ型的に多様な低リソース言語上でベンチマークする。
XLS-Rはトレーニングデータが1時間を超えるとパリティ性能を示すのに対し,MMSは極端に少ないトレーニングデータが得られる場合に最適であることがわかった。
本稿では,言語資料における転写ボトルネックを軽減するために,再現性のあるASR適応手法を強調し,言語言語言語学者の実践的ガイドラインに対するさらなる洞察を提供するために,言語学的基盤解析を提供する。
関連論文リスト
- Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。
我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。
統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文 参考訳(メタデータ) (2025-03-30T18:03:52Z) - Enhancing Small Language Models for Cross-Lingual Generalized Zero-Shot Classification with Soft Prompt Tuning [8.408016670697068]
ゼロショット分類(ZSC)は、モデルがトレーニング中に見えないカテゴリに分類できるようにするために欠かせないものとなっている。
我々は,言語間ZSCを強化するソフトプロンプトを訓練するための軽量でデータ効率のよいアプローチであるRoSPromptを紹介する。
我々は,106言語をカバーする多言語 PLM に対するアプローチを評価し,強い言語間転送性能と堅牢な一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-25T09:00:25Z) - Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。
我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-02-07T12:42:46Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - SMILE: Speech Meta In-Context Learning for Low-Resource Language Automatic Speech Recognition [55.2480439325792]
音声メタインコンテキスト学習(SMILE)は、メタラーニングと音声インコンテキスト学習(SICL)を組み合わせた革新的なフレームワークである
SMILEは、トレーニング不要な多言語ASRタスクにおいて、ベースライン手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-09-16T16:04:16Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。