論文の概要: Tone recognition in low-resource languages of North-East India: peeling the layers of SSL-based speech models
- arxiv url: http://arxiv.org/abs/2506.03606v1
- Date: Wed, 04 Jun 2025 06:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.180619
- Title: Tone recognition in low-resource languages of North-East India: peeling the layers of SSL-based speech models
- Title(参考訳): インド北東部の低音源言語におけるトーン認識--SSLに基づく音声モデルの層間剥離
- Authors: Parismita Gogoi, Sishir Kalita, Wendy Lalhminghlui, Viyazonuo Terhiija, Moakala Tzudir, Priyankoo Sarmah, S. R. M. Prasanna,
- Abstract要約: 本研究では,インド北東部の低リソース言語3言語において,自己教師付き学習(SSL)モデルを用いたトーン認識について検討した。
音節言語と非音節言語の両方で事前学習された4つのWav2vec2.0ベースモデルを評価した。
以上の結果から, 美蔵では音色認識が最善で, 安神では最悪であることが示唆された。
- 参考スコア(独自算出の注目度): 8.3067762265238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the use of self-supervised learning (SSL) models for tone recognition in three low-resource languages from North Eastern India: Angami, Ao, and Mizo. We evaluate four Wav2vec2.0 base models that were pre-trained on both tonal and non-tonal languages. We analyze tone-wise performance across the layers for all three languages and compare the different models. Our results show that tone recognition works best for Mizo and worst for Angami. The middle layers of the SSL models are the most important for tone recognition, regardless of the pre-training language, i.e. tonal or non-tonal. We have also found that the tone inventory, tone types, and dialectal variations affect tone recognition. These findings provide useful insights into the strengths and weaknesses of SSL-based embeddings for tonal languages and highlight the potential for improving tone recognition in low-resource settings. The source code is available at GitHub 1 .
- Abstract(参考訳): 本研究では,インド北部の低リソース言語Angami,Ao,Mizoの3言語において,自己教師付き学習(SSL)モデルを用いたトーン認識について検討した。
音節言語と非音節言語の両方で事前学習された4つのWav2vec2.0ベースモデルを評価した。
3つの言語すべてにおいて、各レイヤのトーンワイドのパフォーマンスを分析し、異なるモデルを比較します。
以上の結果から, 美蔵では音色認識が最善で, 安神では最悪であることが示唆された。
SSLモデルの中間層は、事前訓練された言語、すなわちトーナルまたはノントナーにかかわらず、トーン認識において最も重要なものである。
また,トーンの在庫,トーンタイプ,方言の変動がトーン認識に影響を及ぼすことが判明した。
これらの知見は、SSLベースのトーン言語への埋め込みの長所と短所に関する有用な洞察を与え、低リソース環境でのトーン認識の改善の可能性を強調している。
ソースコードはGitHub 1で入手できる。
関連論文リスト
- A layer-wise analysis of Mandarin and English suprasegmentals in SSL speech models [31.318688705100517]
英語とmandarin wav2vec 2.0モデルは抽象的な上述のカテゴリの文脈表現を学ぶ。
モデルは、トレーニングデータの言語に存在する機能を表現するのが得意です。
HuBERT と WavLM は wav2vec 2.0 と同様の表現を学習し、主に後の層の性能が異なる。
論文 参考訳(メタデータ) (2024-08-24T22:03:40Z) - SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? [45.901645659694935]
音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-06-14T09:04:29Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。