論文の概要: Phonetic Modeling of Dialectal Variation in Vietnamese Speech
- arxiv url: http://arxiv.org/abs/2605.24451v1
- Date: Sat, 23 May 2026 08:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.064682
- Title: Phonetic Modeling of Dialectal Variation in Vietnamese Speech
- Title(参考訳): ベトナム語音声における方言変化の音韻モデル
- Authors: Quan Ngoc Hoang, Long Hoang Huu Nguyen, Nghia Hieu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen,
- Abstract要約: ベトナム語は、北部、中部、南部で方言の音韻変化が顕著である。
ベトナム語の音韻構造と方言変化を語彙レベルと復号レベルの両方で明示的にモデル化する方言対応音声フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.447993256993428
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vietnamese exhibits substantial dialectal phonetic variation across Northern, Central, and Southern regions, where identical lexical items may be realized with markedly different pronunciations. Such variation poses challenges for automatic speech recognition (ASR) and remains difficult to model computationally due to the complex relationship between Vietnamese orthography and phonology. Existing approaches typically address dialect variability at the word level, assuming dialect-invariant mappings between spelling and pronunciation, which limits their ability to capture systematic phonetic differences. We propose a dialect-aware phonetic framework that explicitly models Vietnamese phonological structure and dialectal variation at both the vocabulary and decoding levels. The framework introduces a phonetic vocabulary that decomposes each syllable into structured phonetic components and maps them to dialect-specific IPA representations, together with a phonetic-structure decoder that jointly predicts these components. Experiments on the UIT-ViMD, a only-available dataset for multi-dialect in Vietnamese, show that the proposed approach outperforms various pre-trained baselines, \textbf{especially matches the performance of the strongest pretrained wav2ve2-base-vi-250h} across dialects while \textbf{using substantially fewer parameters and no external pretraining}. Code for experimental reproducibility will be publicly available upon the acceptance of this paper.
- Abstract(参考訳): ベトナム語は、北部、中部、南部地域で方言の方言的変化を示しており、同じ語彙の項目が顕著に異なる発音で実現されることがある。
このような変化は、自動音声認識(ASR)の課題となり、ベトナムの正書法と音韻学の複雑な関係のため、計算的にモデル化することは困難である。
既存のアプローチは、スペルと発音の間の方言不変のマッピングを仮定して、単語レベルでの方言の多様性に対処する。
ベトナム語の音韻構造と方言変化を語彙レベルと復号レベルの両方で明示的にモデル化する方言対応音声フレームワークを提案する。
このフレームワークは、各音節を構造化された音素成分に分解し、それを方言固有のIPA表現にマッピングする音素語彙を導入し、これらの成分を共同で予測する音素構造デコーダも導入している。
UIT-ViMDはベトナム語で唯一利用可能なデータセットであり、提案手法は様々な事前訓練されたベースラインより優れており、特に、最強の事前訓練されたwav2ve2-base-vi-250h} の方言における性能と、ほぼ少ないパラメータと外部の事前訓練を行わない。
本論文の受理により,実験再現性に関するコードが公開される。
関連論文リスト
- Speech Codec Probing from Semantic and Phonetic Perspectives [49.01048570474675]
音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
新たな証拠は、音声表現において「意味」と呼ばれるものは、テキスト由来の意味論と一致しないことを示している。
論文 参考訳(メタデータ) (2026-03-11T03:32:25Z) - DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation [14.224017622788061]
音声表現を標準化し,グラファイムと音素のあいまいさを解消する統合IPAベースのフレームワークであるDiaMoE-TTSを提案する。
大規模またはプロプライエタリなリソースに依存するアプローチとは異なり、DiaMoE-TTSはスケーラブルでオープンデータ駆動の合成を可能にする。
論文 参考訳(メタデータ) (2025-09-25T07:02:04Z) - TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition [0.855801641444342]
コードスイッチング(CS)は、一般的な自動音声認識(ASR)システムにとって重要な課題である。
既存の手法は、CSのシナリオに固有の微妙な音韻的変化を捉えるのに失敗することが多い。
2段階音素中心モデル(TSPC)であるベトナム英語CS ASRの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-07T09:19:03Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - The realization of tones in spontaneous spoken Taiwan Mandarin: a corpus-based survey and theory-driven computational modeling [1.7723990552388866]
本研究では,マンダリン音節単語の音節認識と2つの音節の組み合わせについて検討した。
その結果、文脈や音素的実現における意味は、標準言語理論が予測するよりもはるかに絡み合っていることがわかった。
論文 参考訳(メタデータ) (2025-03-29T17:39:55Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules [64.93179829965072]
DADAは、多言語対応のSAE訓練モデルに対するモジュラーアプローチである。
DADAは単一タスクと命令言語モデルの両方に有効であることを示す。
論文 参考訳(メタデータ) (2023-05-22T18:43:31Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。