Fugu-MT 論文翻訳(概要): Efficient Dialect-Aware Modeling and Conditioning for Low-Resource Taiwanese Hakka Speech Processing

論文の概要: Efficient Dialect-Aware Modeling and Conditioning for Low-Resource Taiwanese Hakka Speech Processing

arxiv url: http://arxiv.org/abs/2602.22522v1
Date: Thu, 26 Feb 2026 01:33:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.469903
Title: Efficient Dialect-Aware Modeling and Conditioning for Low-Resource Taiwanese Hakka Speech Processing
Title（参考訳）: 低リソース台湾ハッカ音声処理のための効率的な辞書認識モデリングと条件付け
Authors: An-Ci Peng, Kuan-Tang Huang, Tien-Hong Lo, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen,
Abstract要約: 台湾のハッカは、自動音声認識(ASR)において重要な課題を提起する、低リソースで絶滅危惧言語である本稿では、リカレントニューラルネットワークトランスデューサ(RNN-T)を基盤とした統合フレームワークを提案する。言語的「コンテンツ」から弁証的「スタイル」を遠ざけるよう設計された方言対応モデリング戦略
参考スコア（独自算出の注目度）: 23.189436723909406
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Taiwanese Hakka is a low-resource, endangered language that poses significant challenges for automatic speech recognition (ASR), including high dialectal variability and the presence of two distinct writing systems (Hanzi and Pinyin). Traditional ASR models often encounter difficulties in this context, as they tend to conflate essential linguistic content with dialect-specific variations across both phonological and lexical dimensions. To address these challenges, we propose a unified framework grounded in the Recurrent Neural Network Transducers (RNN-T). Central to our approach is the introduction of dialect-aware modeling strategies designed to disentangle dialectal "style" from linguistic "content", which enhances the model's capacity to learn robust and generalized representations. Additionally, the framework employs parameter-efficient prediction networks to concurrently model ASR (Hanzi and Pinyin). We demonstrate that these tasks create a powerful synergy, wherein the cross-script objective serves as a mutual regularizer to improve the primary ASR tasks. Experiments conducted on the HAT corpus reveal that our model achieves 57.00% and 40.41% relative error rate reduction on Hanzi and Pinyin ASR, respectively. To our knowledge, this is the first systematic investigation into the impact of Hakka dialectal variations on ASR and the first single model capable of jointly addressing these tasks.
Abstract（参考訳）: 台湾のハッカ語は、方言の多様性や2つの異なる文字体系(ハンジ語とピニイン語)の存在など、自動音声認識(ASR)に重大な課題をもたらす、低リソースの絶滅危惧言語である。伝統的なASRモデルは、音韻次元と語彙次元にまたがる方言固有のバリエーションと、本質的な言語内容とを区別する傾向があるため、この文脈でしばしば困難に遭遇する。これらの課題に対処するため、リカレントニューラルネットワークトランスデューサ(RNN-T)を基盤とした統合フレームワークを提案する。我々のアプローチの中心は、方言の「スタイル」を言語的な「コンテンツ」から切り離すために設計された方言認識モデリング戦略の導入である。さらに、このフレームワークはパラメータ効率の予測ネットワークを使用して、ASR(HanziとPinyin)を同時にモデル化する。これらのタスクが強力な相乗効果を生み出し、クロススクリプトの目的が主要なASRタスクを改善するための相互正則化として機能することを示します。 HATコーパスで行った実験では,ハンジとピニインASRの相対誤差率を57.00%,40.41%削減できることがわかった。我々の知る限り、これはハッカ方言のバリエーションがASRに与える影響に関する最初の体系的な研究であり、これらの課題に共同で対処できる最初の単一モデルである。

関連論文リスト

Dialect Matters: Cross-Lingual ASR Transfer for Low-Resource Indic Language Varieties [7.81142462208334]
自然発声・雑音・符号混合音声を用いた言語間移動の実験的検討を行った。以上の結果から,ASRは言語間の系統的距離を減らして改善されているものの,この因子だけでは方言設定における性能を完全に説明できないことが示唆された。
論文参考訳（メタデータ） (2026-01-07T20:31:05Z)
Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文参考訳（メタデータ） (2025-10-04T02:56:33Z)
DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文参考訳（メタデータ） (2024-03-01T05:28:06Z)
Generative error correction for code-switching speech recognition using large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文参考訳（メタデータ） (2023-10-17T14:49:48Z)
Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文参考訳（メタデータ） (2023-10-14T23:16:05Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Cross-sentence Neural Language Models for Conversational Speech Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文参考訳（メタデータ） (2021-06-13T05:30:16Z)
Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文参考訳（メタデータ） (2021-04-21T05:19:13Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。