論文の概要: ViSpeechFormer: A Phonemic Approach for Vietnamese Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.10003v1
- Date: Tue, 10 Feb 2026 17:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.707299
- Title: ViSpeechFormer: A Phonemic Approach for Vietnamese Automatic Speech Recognition
- Title(参考訳): ViSpeechFormer:ベトナム語自動音声認識のための音声学的アプローチ
- Authors: Khoa Anh Nguyen, Long Minh Hoang, Nghia Hieu Nguyen, Luan Thanh Nguyen, Ngan Luu-Thuy Nguyen,
- Abstract要約: ベトナム語自動音声認識(ASR)のための音素ベースアプローチViSpeechFormer(textbfVietnamese textbfSpeech TranstextbfFormer)を提案する。
ベトナムの2つのASRデータセットに対する実験は、ViSpeechFormerが強いパフォーマンスを実現し、語彙外単語よりも一般化し、トレーニングバイアスの影響を受けないことを示している。
- 参考スコア(独自算出の注目度): 7.250850162908686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vietnamese has a phonetic orthography, where each grapheme corresponds to at most one phoneme and vice versa. Exploiting this high grapheme-phoneme transparency, we propose ViSpeechFormer (\textbf{Vi}etnamese \textbf{Speech} Trans\textbf{Former}), a phoneme-based approach for Vietnamese Automatic Speech Recognition (ASR). To the best of our knowledge, this is the first Vietnamese ASR framework that explicitly models phonemic representations. Experiments on two publicly available Vietnamese ASR datasets show that ViSpeechFormer achieves strong performance, generalizes better to out-of-vocabulary words, and is less affected by training bias. This phoneme-based paradigm is also promising for other languages with phonetic orthographies. The code will be released upon acceptance of this paper.
- Abstract(参考訳): ベトナム語には音韻正書法があり、各音素は少なくとも1つの音素に対応する。
ベトナム語自動音声認識(ASR)のための音素ベースのアプローチであるViSpeechFormer(\textbf{Vi}etnamese \textbf{Speech} Trans\textbf{Former})を提案する。
我々の知る限りでは、これは音声表現を明示的にモデル化するベトナム初のASRフレームワークである。
ベトナムの2つのASRデータセットに対する実験は、ViSpeechFormerが強いパフォーマンスを実現し、語彙外単語よりも一般化し、トレーニングバイアスの影響を受けないことを示している。
この音素に基づくパラダイムは、音韻の正書法を持つ他の言語にも有望である。
コードは、この論文の受理時に公開される。
関連論文リスト
- POWSM: A Phonetic Open Whisper-Style Speech Foundation Model [50.73202227472358]
POWSMは、複数の電話関連のタスクを共同で実行できる最初の統合フレームワークである。
私たちのトレーニングデータ、コード、モデルは、オープンサイエンスを育むためにリリースされています。
論文 参考訳(メタデータ) (2025-10-28T21:43:45Z) - TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition [0.855801641444342]
コードスイッチング(CS)は、一般的な自動音声認識(ASR)システムにとって重要な課題である。
既存の手法は、CSのシナリオに固有の微妙な音韻的変化を捉えるのに失敗することが多い。
2段階音素中心モデル(TSPC)であるベトナム英語CS ASRの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-07T09:19:03Z) - Whisper based Cross-Lingual Phoneme Recognition between Vietnamese and English [0.0]
言語間音声認識は,音声認識の精度向上に重要な課題となっている。
英語は2つの言語間の音素の一致を妨げるストレスパターンと非標準発音を特徴としている。
本稿では,2つの主要な貢献によるバイリンガル音声認識手法を提案する。
論文 参考訳(メタデータ) (2025-08-22T09:10:24Z) - StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。