Fugu-MT 論文翻訳(概要): Methods to Increase the Amount of Data for Speech Recognition for Low Resource Languages

論文の概要: Methods to Increase the Amount of Data for Speech Recognition for Low Resource Languages

arxiv url: http://arxiv.org/abs/2501.14788v1
Date: Wed, 08 Jan 2025 15:18:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-02 21:31:26.802666
Title: Methods to Increase the Amount of Data for Speech Recognition for Low Resource Languages
Title（参考訳）: 低資源言語における音声認識のためのデータ量増加手法
Authors: Alexan Ayrapetyan, Sofia Kostandian, Ara Yeroyan, Mher Yerznkanyan, Nikolay Karpov, Nune Tadevosyan, Vitaly Lavrukhin, Boris Ginsburg,
Abstract要約: アルメニア語とグルジア語をケーススタディとして、言語学的・資源特異的な特徴がこれらの手法の成功にどのように影響するかを実証する。この研究は、研究者が低コストで高品質なデータセット拡張戦略を選択するための実践的なガイダンスを提供する。
参考スコア（独自算出の注目度）: 13.125886801134136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study explores methods to increase data volume for low-resource languages using techniques such as crowdsourcing, pseudo-labeling, advanced data preprocessing and various permissive data sources such as audiobooks, Common Voice, YouTube. While these methods are well-explored for highresource languages, their application for low-resource languages remains underexplored. Using Armenian and Georgian as case studies, we demonstrate how linguistic and resource-specific characteristics influence the success of these methods. This work provides practical guidance for researchers to choose cost-effective and quality-driven dataset extension strategies for low-resource languages. The key takeaway from various data extension approaches is that paid crowd-sourcing offers the best balance between cost and quality, outperforming volunteer crowd-sourcing, open-source audiobooks, and unlabeled data usage. Ablation study shows that models trained on the expanded datasets outperform existing baselines and achieve 5.73% for Gergian and 9.9% for Armenian ASR word error rate using a relatively small FastConformer architecture. We open-sourced both the Armenian and Georgian models to allow further research and practical applications.
Abstract（参考訳）: 本研究では、クラウドソーシング、擬似ラベル付け、高度なデータ前処理、オーディオブック、Common Voice、YouTubeなどの様々なパーミッションデータソースといった手法を用いて、低リソース言語におけるデータ量を増やす方法を検討する。これらの手法は、ハイソース言語ではよく研究されているが、低リソース言語の応用はいまだに未検討である。アルメニア語とグルジア語をケーススタディとして、言語学的・資源特異的な特徴がこれらの手法の成功にどのように影響するかを実証する。この研究は、研究者が低コストで高品質なデータセット拡張戦略を選択するための実践的なガイダンスを提供する。さまざまなデータ拡張アプローチから得られる重要なポイントは、有償のクラウドソーシングがコストと品質の最良のバランスを提供し、ボランティアのクラウドソーシング、オープンソースのオーディオブック、ラベルなしのデータ使用率を上回ることだ。アブレーション研究では、拡張データセットでトレーニングされたモデルは既存のベースラインを上回っ、ガージアンでは5.73%、アルメニアのASRワードエラーレートでは9.9%を比較的小さなFastConformerアーキテクチャを使って達成している。我々はアルメニアとグルジアのモデルの両方をオープンソース化し、さらなる研究と実践的な応用を可能にした。

関連論文リスト

Relic: Enhancing Reward Model Generalization for Low-Resource Indic Languages with Few-Shot Examples [58.55904048776596]
ほとんどのオープンソースの多言語報酬モデルは、主にオープンソース言語の好みデータセットに基づいて訓練されている。低リソースIndic言語における報酬モデリングのための新しい文脈内学習フレームワークであるRELICを提案する。
論文参考訳（メタデータ） (2025-06-19T17:56:16Z)
SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T17:48:08Z)
Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages? [2.7624021966289605]
低リソース言語のための名前付きエンティティ認識は、ラベル付きトレーニングデータが限られている言語のための堅牢なシステムを作ることを目的としている。低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
論文参考訳（メタデータ） (2025-05-22T15:50:47Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文参考訳（メタデータ） (2024-04-12T06:16:26Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
GPTs Are Multilingual Annotators for Sequence Generation Tasks [11.59128394819439]
本研究では,大規模言語モデルを用いた自律アノテーション手法を提案する。提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-08T09:44:02Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文参考訳（メタデータ） (2024-01-26T03:38:23Z)
MetaXLR -- Mixed Language Meta Representation Transformation for Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文参考訳（メタデータ） (2023-05-31T18:22:33Z)
Learning Translation Quality Evaluation on Low Resource Languages from Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文参考訳（メタデータ） (2023-02-07T14:35:35Z)
Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。言語に習熟したNLP研究者と集団労働者を対象に調査を行った。メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文参考訳（メタデータ） (2022-11-28T18:54:33Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Improving Candidate Generation for Low-resource Cross-lingual Entity Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文参考訳（メタデータ） (2020-03-03T05:32:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。