論文の概要: Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.18582v1
- Date: Wed, 23 Apr 2025 10:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.889832
- Title: Speaker Diarization for Low-Resource Languages Through Wav2vec Fine-Tuning
- Title(参考訳): Wav2vecファインチューニングによる低音源言語に対する話者ダイアリゼーション
- Authors: Abdulhady Abas Abdullah, Sarkhel H. Taher Karim, Sara Azad Ahmed, Kanar R. Tariq, Tarik A. Rashid,
- Abstract要約: 我々は、専用のクルド語コーパス上で、Wav2Vec 2.0の自己教師型学習モデルを訓練する。
我々は他の言語から学んだ多言語表現に適応し、クルド語の音声的・音響的特徴を捉える。
結果は、他の未研究言語で効果的なダイアリゼーションシステムを構築するための基盤を確立する。
- 参考スコア(独自算出の注目度): 4.396936958546459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker diarization is a fundamental task in speech processing that involves dividing an audio stream by speaker. Although state-of-the-art models have advanced performance in high-resource languages, low-resource languages such as Kurdish pose unique challenges due to limited annotated data, multiple dialects and frequent code-switching. In this study, we address these issues by training the Wav2Vec 2.0 self-supervised learning model on a dedicated Kurdish corpus. By leveraging transfer learning, we adapted multilingual representations learned from other languages to capture the phonetic and acoustic characteristics of Kurdish speech. Relative to a baseline method, our approach reduced the diarization error rate by seven point two percent and improved cluster purity by thirteen percent. These findings demonstrate that enhancements to existing models can significantly improve diarization performance for under-resourced languages. Our work has practical implications for developing transcription services for Kurdish-language media and for speaker segmentation in multilingual call centers, teleconferencing and video-conferencing systems. The results establish a foundation for building effective diarization systems in other understudied languages, contributing to greater equity in speech technology.
- Abstract(参考訳): 話者ダイアリゼーションは、話者による音声ストリームの分割を含む音声処理の基本的なタスクである。
最先端のモデルは、高リソース言語では高度な性能を持つが、クルド語のような低リソース言語は、注釈付きデータや複数の方言、頻繁なコードスイッチングのために、ユニークな課題を生んでいる。
本研究では、クルド人専用コーパスを用いたWav2Vec 2.0自己教師型学習モデルの学習により、これらの課題に対処する。
伝達学習を活用することで、他の言語から学んだ多言語表現を応用し、クルド語の音声的・音響的特徴を捉えた。
基準法と比較して, ダイアリゼーション誤差率を7ポイント2%削減し, クラスタ純度を13%改善した。
これらの結果から,既存モデルの強化により,アンダーリソース言語におけるダイアリゼーション性能が大幅に向上することが示唆された。
本研究は,クルド語メディアと多言語コールセンター,遠隔会議,ビデオ会議システムにおける話者セグメンテーションのための転写サービスを開発するための実践的意味を持っている。
その結果,他の研究対象言語における効果的なダイアリゼーションシステム構築の基礎が確立され,音声技術におけるより多くの株式の獲得に寄与した。
関連論文リスト
- Whisper Turns Stronger: Augmenting Wav2Vec 2.0 for Superior ASR in Low-Resource Languages [1.3108652488669736]
本稿では,データ拡張技術を用いて,Wav2Vec2上で微調整されたASRシステムを強化するエンドツーエンドフレームワークを提案する。
提案手法は,事前学習したWav2Vec2とよく知られたWhisper ASRモデルの2つのベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-12-31T13:03:20Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。