論文の概要: Rethinking Discrete Speech Representation Tokens for Accent Generation
- arxiv url: http://arxiv.org/abs/2601.19786v1
- Date: Tue, 27 Jan 2026 16:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.40199
- Title: Rethinking Discrete Speech Representation Tokens for Accent Generation
- Title(参考訳): アクセント生成のための離散音声表現トークンの再考
- Authors: Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter Bell,
- Abstract要約: 本研究は,DSRTにおけるアクセント情報に関する最初の体系的な研究である。
アクセント情報のアクセシビリティを両立させる統合評価フレームワークを提案する。
制御可能なアクセント生成において既存の設計を大幅に上回る、コンテンツ専用およびコンテンツアクセントDSRTを提案する。
- 参考スコア(独自算出の注目度): 17.98720096733192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete Speech Representation Tokens (DSRTs) have become a foundational component in speech generation. While prior work has extensively studied phonetic and speaker information in DSRTs, how accent information is encoded in DSRTs remains largely unexplored. In this paper, we present the first systematic investigation of accent information in DSRTs. We propose a unified evaluation framework that measures both accessibility of accent information via a novel Accent ABX task and recoverability via cross-accent Voice Conversion (VC) resynthesis. Using this framework, we analyse DSRTs derived from a variety of speech encoders. Our results reveal that accent information is substantially reduced when ASR supervision is used to fine-tune the encoder, but cannot be effectively disentangled from phonetic and speaker information through naive codebook size reduction. Based on these findings, we propose new content-only and content-accent DSRTs that significantly outperform existing designs in controllable accent generation. Our work highlights the importance of accent-aware evaluation and provides practical guidance for designing DSRTs for accent-controlled speech generation.
- Abstract(参考訳): 離散音声表現トークン(DSRT)は音声生成の基盤となっている。
従来の研究は、DSRTにおける音声情報や話者情報を幅広く研究してきたが、どのようにアクセント情報がDSRTにエンコードされているかは明らかにされていない。
本稿では,DSRTにおけるアクセント情報に関する最初の体系的な研究について述べる。
本稿では,新たなアクセントABXタスクによるアクセント情報のアクセシビリティと,クロスアクセント音声変換(VC)再生による回復性の両方を測定する統一評価フレームワークを提案する。
このフレームワークを用いて、様々な音声エンコーダから派生したDSRTを解析する。
この結果から,ASR監督装置を用いてエンコーダの微調整を行う場合,アクセント情報は大幅に低減されるが,音声情報や話者情報から有意に切り離すことはできないことがわかった。
これらの結果に基づき、制御可能なアクセント生成において、既存の設計を著しく上回るコンテンツのみおよびコンテンツアクセントDSRTを提案する。
本研究はアクセント認識評価の重要性を強調し,アクセント制御音声生成のためのDSRTの設計のための実践的ガイダンスを提供する。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Multi-pass Training and Cross-information Fusion for Low-resource
End-to-end Accented Speech Recognition [12.323309756880581]
低リソースアクセント型音声認識は、現在のASR技術で直面する重要な課題の1つである。
本研究では,非アクセントと限定的なアクセント付きトレーニングデータから得られた音響情報を活用するために,Aformerと呼ばれるコンフォーマーベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-20T06:08:09Z) - Content-Context Factorized Representations for Automated Speech
Recognition [12.618527387900079]
本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。
我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
論文 参考訳(メタデータ) (2022-05-19T21:34:40Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。