論文の概要: Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling
- arxiv url: http://arxiv.org/abs/2408.14026v1
- Date: Mon, 26 Aug 2024 05:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:02:44.408512
- Title: Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling
- Title(参考訳): 大規模擬似ラベリングによる低リソース言語ASRの活用
- Authors: Kaushal Santosh Bhogale, Deovrat Mehendale, Niharika Parasa, Sathish Kumar Reddy G, Tahir Javed, Pratyush Kumar, Mitesh M. Khapra,
- Abstract要約: 我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
- 参考スコア(独自算出の注目度): 24.870429379543193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we tackle the challenge of limited labeled data for low-resource languages in ASR, focusing on Hindi. Specifically, we explore pseudo-labeling, by proposing a generic framework combining multiple ideas from existing works. Our framework integrates multiple base models for transcription and evaluators for assessing audio-transcript pairs, resulting in robust pseudo-labeling for low resource languages. We validate our approach with a new benchmark, IndicYT, comprising diverse YouTube audio files from multiple content categories. Our findings show that augmenting pseudo labeled data from YouTube with existing training data leads to significant performance improvements on IndicYT, without affecting performance on out-of-domain benchmarks, demonstrating the efficacy of pseudo-labeled data in enhancing ASR capabilities for low-resource languages. The benchmark, code and models developed as a part of this work will be made publicly available.
- Abstract(参考訳): 本研究では,Hindiに着目したASRにおける低リソース言語におけるラベル付きデータ制限の課題に対処する。
具体的には、既存の作品から複数のアイデアを組み合わせた汎用的なフレームワークを提案することで、擬似ラベルについて検討する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
その結果,既存のトレーニングデータを用いてYouTubeから擬似ラベル付きデータを増強することで,ドメイン外のベンチマークのパフォーマンスに影響を与えることなく,IndicYTの性能が大幅に向上し,低リソース言語におけるASR機能向上における擬似ラベル付きデータの有効性が実証された。
この作業の一部として開発されたベンチマーク、コード、モデルは一般公開される予定である。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions [0.0]
本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。
また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
論文 参考訳(メタデータ) (2021-05-31T18:35:27Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。