論文の概要: Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages
- arxiv url: http://arxiv.org/abs/2604.18204v1
- Date: Mon, 20 Apr 2026 12:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.877253
- Title: Hard to Be Heard: Phoneme-Level ASR Analysis of Phonologically Complex, Low-Resource Endangered Languages
- Title(参考訳): 難解:音素レベルASR分析による音韻的に複雑で低リソースな絶滅危惧言語
- Authors: V. S. D. S. Mahesh Akavarapu, Michael Daniel, Gerhard Jäger,
- Abstract要約: 本稿では,低リソースかつ音韻的に複雑な2つの東コーカサス語に対する音声認識(ASR)の音素レベル解析について述べる。
既存の記録と転写は統合され、ASR訓練及び評価に適した形式に処理される。
- 参考スコア(独自算出の注目度): 2.3513645401551337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a phoneme-level analysis of automatic speech recognition (ASR) for two low-resourced and phonologically complex East Caucasian languages, Archi and Rutul, based on curated and standardized speech-transcript resources totaling approximately 50 minutes and 1 hour 20 minutes of audio, respectively. Existing recordings and transcriptions are consolidated and processed into a form suitable for ASR training and evaluation. We evaluate several state-of-the-art audio and audio-language models, including wav2vec2, Whisper, and Qwen2-Audio. For wav2vec2, we introduce a language-specific phoneme vocabulary with heuristic output-layer initialization, which yields consistent improvements and achieves performance comparable to or exceeding Whisper in these extremely low-resource settings. Beyond standard word and character error rates, we conduct a detailed phoneme-level error analysis. We find that phoneme recognition accuracy strongly correlates with training frequency, exhibiting a characteristic sigmoid-shaped learning curve. For Archi, this relationship partially breaks for Whisper, pointing to model-specific generalization effects beyond what is predicted by training frequency. Overall, our results indicate that many errors attributed to phonological complexity are better explained by data scarcity. These findings demonstrate the value of phoneme-level evaluation for understanding ASR behavior in low-resource, typologically complex languages.
- Abstract(参考訳): 本稿では,約50分と1時間20分を基準とした,低音源・音声学的に複雑な東コーカサス諸言語(ArchiとRutul)に対する音声認識(ASR)の音素レベル解析について述べる。
既存の記録と転写は統合され、ASR訓練及び評価に適した形式に処理される。
我々は、wav2vec2、Whisper、Qwen2-Audioなど、最先端のオーディオおよびオーディオ言語モデルを評価した。
wav2vec2では、ヒューリスティックな出力層初期化を備えた言語固有の音素語彙を導入し、これらの極低リソース設定において、一貫した改善を実現し、Whisperに匹敵する性能を達成する。
標準的な単語や文字の誤り率以外にも,詳細な音素レベルの誤り解析を行う。
音素認識精度は訓練周波数と強く相関し,特徴的シグモイド型学習曲線を示す。
Archi氏にとって、この関係はWhisper氏にとって部分的に壊れており、トレーニング周波数によって予測されるものを超えて、モデル固有の一般化効果を示している。
以上の結果から,音韻的複雑性に起因する多くの誤りは,データ不足によりよりよく説明できることがわかった。
これらの結果から,低リソース・タイポロジーに複雑な言語におけるASRの振る舞いを理解するための音素レベル評価の価値が示唆された。
関連論文リスト
- Goodness-of-pronunciation without phoneme time alignment [40.19694209745764]
オープンソースの弱教師付きモデルは、多くの言語でASRが可能であるが、フレーム同期であり、音素ではない。
本稿では,弱い教師付きモデルによる特徴抽出の不整合性を克服することを提案する。
音素後部は、ASR仮説を音素混乱ネットワークにマッピングすることで計算される。
論文 参考訳(メタデータ) (2026-03-26T08:12:19Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - VALLR: Visual ASR Language Model for Lip Reading [28.561566996686484]
リップレディング(Lip Reading)または視覚自動音声認識(Visual Automatic Speech Recognition)は、視覚的手がかりからのみ音声言語の解釈を必要とする複雑なタスクである。
視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。
まず,CTCヘッドを用いたビデオ変換器を用いて,視覚入力から音素のコンパクトな列を予測する。
この音素出力は、コヒーレントな単語と文を再構成する微調整された大言語モデル(LLM)への入力として機能する。
論文 参考訳(メタデータ) (2025-03-27T11:52:08Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。