論文の概要: CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokkien Speech Recognition
- arxiv url: http://arxiv.org/abs/2511.06860v1
- Date: Mon, 10 Nov 2025 09:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.175746
- Title: CLiFT-ASR: A Cross-Lingual Fine-Tuning Framework for Low-Resource Taiwanese Hokkien Speech Recognition
- Title(参考訳): CLiFT-ASR - 低音源台湾語ホクキン音声認識のための言語間ファインチューニングフレームワーク
- Authors: Hung-Yang Sung, Chien-Chun Wang, Kuan-Tang Huang, Tien-Hong Lo, Yu-Sheng Tsao, Yung-Chang Hsu, Berlin Chen,
- Abstract要約: CLiFT-ASRは台湾のホッキエンにおける音声認識のための言語横断的な微調整フレームワークである。
最初は音素の太ロアノテーションから音響と音調の表現を学び、次に漢文字の語彙と構文をキャプチャする。
TAT-MOEコーパスの実験は、CLiFT-ASRが文字誤り率を24.88%減少させることを示した。
- 参考スコア(独自算出の注目度): 12.323666705980672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) for low-resource languages such as Taiwanese Hokkien is difficult due to the scarcity of annotated data. However, direct fine-tuning on Han-character transcriptions often fails to capture detailed phonetic and tonal cues, while training only on romanization lacks lexical and syntactic coverage. In addition, prior studies have rarely explored staged strategies that integrate both annotation types. To address this gap, we present CLiFT-ASR, a cross-lingual fine-tuning framework that builds on Mandarin HuBERT models and progressively adapts them to Taiwanese Hokkien. The framework employs a two-stage process in which it first learns acoustic and tonal representations from phonetic Tai-lo annotations and then captures vocabulary and syntax from Han-character transcriptions. This progressive adaptation enables effective alignment between speech sounds and orthographic structures. Experiments on the TAT-MOE corpus demonstrate that CLiFT-ASR achieves a 24.88\% relative reduction in character error rate (CER) compared with strong baselines. The results indicate that CLiFT-ASR provides an effective and parameter-efficient solution for Taiwanese Hokkien ASR and that it has potential to benefit other low-resource language scenarios.
- Abstract(参考訳): 台湾語 Hokkien などの低リソース言語を対象とした自動音声認識(ASR)は,注釈付きデータの不足により困難である。
しかし、漢文字の転写を直接微調整することは、詳細な音素や音節の手がかりを捉えるのに失敗することが多い。
さらに、先行研究は、両方のアノテーションタイプを統合する段階的な戦略をめったに研究していない。
CLiFT-ASRは,マンダリンHuBERTモデル上に構築され,台湾のホッキエンに段階的に適応する言語間微調整フレームワークである。
このフレームワークは、2段階のプロセスを用いて、まず音素の太字のアノテーションから音響と音調の表現を学び、次に漢文字の文字起こしから語彙と構文をキャプチャする。
このプログレッシブ適応は、音声と正書法構造の間の効果的なアライメントを可能にする。
TAT-MOEコーパスの実験では、CLiFT-ASRは強いベースラインと比較して文字誤り率(CER)の24.88倍の相対的な減少を達成している。
その結果,CLiFT-ASRは台湾のHokkien ASRに対して有効かつパラメータ効率のよいソリューションであり,他の低リソース言語シナリオの恩恵を受ける可能性が示唆された。
関連論文リスト
- Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。
我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T02:56:33Z) - Building Tailored Speech Recognizers for Japanese Speaking Assessment [6.152272170188488]
我々はアクセントマーカーで音声ラベルを出力する音声認識器を構築した。
日本語は資源に富んでいるが、正確な音素の書き起こしを行うための訓練用データはほとんどない。
論文 参考訳(メタデータ) (2025-09-25T01:26:11Z) - TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition [0.855801641444342]
コードスイッチング(CS)は、一般的な自動音声認識(ASR)システムにとって重要な課題である。
既存の手法は、CSのシナリオに固有の微妙な音韻的変化を捉えるのに失敗することが多い。
2段階音素中心モデル(TSPC)であるベトナム英語CS ASRの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-07T09:19:03Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。