論文の概要: Syllabic-Structure Decoder for Automatic Speech Recognition in Vietnamese
- arxiv url: http://arxiv.org/abs/2605.27874v1
- Date: Wed, 27 May 2026 02:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.696516
- Title: Syllabic-Structure Decoder for Automatic Speech Recognition in Vietnamese
- Title(参考訳): ベトナムにおける音声認識のための音節構造デコーダ
- Authors: Nghia Hieu Nguyen, Quan Ngoc Hoang, Long Hoang Huu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen,
- Abstract要約: 我々はベトナム語の特徴から、ASRのためのSyllabic-Structure Decoderを提案する。
提案手法では,音節の音韻的構成を明示的に把握し,コンパクトな音韻インベントリから有効な音節構造をデコーダで生成する。
- 参考スコア(独自算出の注目度): 8.447993256993428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most Automatic Speech Recognition (ASR) systems formulate transcription as a prediction problem over orthographic units such as characters, subwords, or words. Although effective, such representations do not explicitly reflect the phonetic structure of speech and often require large vocabularies to maintain adequate coverage. In this work, we are motivated from the phonemic features of Vietnamese to propose a Syllabic-Structure Decoder for ASR, which models speech at the phoneme level instead of the orthographic level. Our approach explicitly captures the phonological composition of syllables, enabling the decoder to generate valid syllabic structures from a compact phonemic inventory. This design more closely aligns with the phonetic realization of speech while significantly reducing vocabulary size. Experimental results on two benchmarks: LSVSC, representing standard speech, and UIT-ViMD, a multi-dialect corpus containing diverse regional pronunciations, show that our method consistently outperforms strong previous baselines, especially pretrained baselines such as PhoWhisper and Wav2Vec2, despite using a substantially smaller vocabulary and no additional training resources. These results highlight the effectiveness of phoneme-based syllabic modeling for ASR in this language. Code for experimental reproducibility will be publicly available upon the acceptance of this paper.
- Abstract(参考訳): ほとんどの自動音声認識(ASR)システムは、文字、サブワード、単語などの正書法上の予測問題として書き起こしを定式化している。
効果はあるものの、このような表現は音声の音声構造を明示的に反映せず、しばしば適切なカバレッジを維持するために大きな語彙を必要とする。
本研究ではベトナム語の音韻的特徴からモチベーションを得て,音素レベルではなく音素レベルをモデル化したASRのためのシラビック・ストラクチャー・デコーダを提案する。
提案手法では,音節の音韻的構成を明示的に把握し,コンパクトな音韻インベントリから有効な音節構造をデコーダで生成する。
この設計は、語彙サイズを著しく減らしながら、音声の音素的実現とより密接に一致している。
LSVSCとUIT-ViMDの2つのベンチマークによる実験結果から,本手法は比較的少ない語彙と追加の訓練資源を使わずに,特に PhoWhisper や Wav2Vec2 などの事前学習ベースラインにおいて,強い先行ベースラインを一貫して上回っていることがわかった。
これらの結果は,ASRにおける音素に基づく音素モデルの有効性を浮き彫りにした。
本論文の受理により,実験再現性に関するコードが公開される。
関連論文リスト
- Phonetic Modeling of Dialectal Variation in Vietnamese Speech [8.447993256993428]
ベトナム語は、北部、中部、南部で方言の音韻変化が顕著である。
ベトナム語の音韻構造と方言変化を語彙レベルと復号レベルの両方で明示的にモデル化する方言対応音声フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-23T08:00:26Z) - Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。
音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文 参考訳(メタデータ) (2025-06-09T11:10:24Z) - Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing [17.333427709985376]
本稿では,自動テキスト発音相関(ATPC)という,発音相関を自動的に取得するデータ駆動手法を提案する。
マンダリンの実験結果から,ATPCはコンテキストバイアス下でのE2E-ASR性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-01-01T11:10:46Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。