論文の概要: Controllable Accent Normalization via Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2603.14275v1
- Date: Sun, 15 Mar 2026 08:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.714626
- Title: Controllable Accent Normalization via Discrete Diffusion
- Title(参考訳): 離散拡散によるアクセント正規化制御
- Authors: Qibing Bai, Yuhan Du, Tom Ko, Shuai Wang, Yannan Wang, Haizhou Li,
- Abstract要約: DLM-ANは、自己教師付き音声トークン上の離散拡散に基づく制御可能なアクセント正規化システムである。
Common Token Predictorは、ネイティブ発音をエンコードする可能性のあるソーストークンを識別する。
- 参考スコア(独自算出の注目度): 42.30120311703957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing accent normalization methods do not typically offer control over accent strength, yet many applications-such as language learning and dubbing-require tunable accent retention. We propose DLM-AN, a controllable accent normalization system built on masked discrete diffusion over self-supervised speech tokens. A Common Token Predictor identifies source tokens that likely encode native pronunciation; these tokens are selectively reused to initialize the reverse diffusion process. This provides a simple yet effective mechanism for controlling accent strength: reusing more tokens preserves more of the original accent. DLM-AN further incorporates a flow-matching Duration Ratio Predictor that automatically adjusts the total duration to better match the native rhythm. Experiments on multi-accent English data show that DLM-AN achieves the lowest word error rate among all compared systems while delivering competitive accent reduction and smooth, interpretable accent strength control.
- Abstract(参考訳): 既存のアクセント正規化法は、アクセント強度を制御しないが、言語学習やダビング要求の調整可能なアクセント保持のような多くの応用がある。
本稿では,自己教師付き音声トークン上での個別拡散をマスクしたアクセント正規化システムDLM-ANを提案する。
Common Token Predictorは、ネイティブ発音をエンコードする可能性のあるソーストークンを識別する。
これにより、アクセント強度を制御するためのシンプルで効果的なメカニズムが提供される。
DLM-ANはさらに、フローマッチング時間比予測器を組み込んで、ネイティブリズムに合うように、合計時間を自動的に調整する。
DLM-ANは、競合アクセントの低減とスムーズで解釈可能なアクセント強度制御を実現しつつ、比較したシステムの中で最も低い単語誤り率を達成することを示す。
関連論文リスト
- Multimodal Consistency-Guided Reference-Free Data Selection for ASR Accent Adaptation [0.05219568203653524]
ASRアクセント適応のためのマルチモーダル整合性誘導型参照フリーデータ選択パイプラインを提案する。
パイプラインは、共有埋め込み空間における音声テキストアライメントと予測された単語エラー率の2つの基準自由信号を用いて、各仮説をスコアする。
単純なパーセンタイルベースの選択規則は、ノイズ発声を排除しながら微調整のための信頼できる擬似ラベルを保持する。
論文 参考訳(メタデータ) (2026-02-03T21:35:58Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning [29.617527535279574]
ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。
既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。
頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
論文 参考訳(メタデータ) (2022-11-28T05:45:17Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。