論文の概要: PHONOS: PHOnetic Neutralization for Online Streaming Applications
- arxiv url: http://arxiv.org/abs/2603.27001v1
- Date: Fri, 27 Mar 2026 21:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.730315
- Title: PHONOS: PHOnetic Neutralization for Online Streaming Applications
- Title(参考訳): PHONOS: オンラインストリーミングアプリケーションのためのPHOnetic Neutralization
- Authors: Waris Quamer, Mu-Ruei Tseng, Ghady Nasrallah, Ricardo Gutierrez-Osuna,
- Abstract要約: 本稿では,リアルタイム話者匿名化のためのストリーミングモジュールPHONOSを提案する。
PHONOSは非ネイティブアクセントをネイティブライクに中和する。
評価の結果,非母性アクセントの信頼度は81%低下した。
- 参考スコア(独自算出の注目度): 4.7828228833826145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker anonymization (SA) systems modify timbre while leaving regional or non-native accents intact, which is problematic because accents can narrow the anonymity set. To address this issue, we present PHONOS, a streaming module for real-time SA that neutralizes non-native accent to sound native-like. Our approach pre-generates golden speaker utterances that preserve source timbre and rhythm but replace foreign segmentals with native ones using silence-aware DTW alignment and zero-shot voice conversion. These utterances supervise a causal accent translator that maps non-native content tokens to native equivalents with at most 40ms look-ahead, trained using joint cross-entropy and CTC losses. Our evaluations show an 81% reduction in non-native accent confidence, with listening-test ratings consistent with this shift, and reduced speaker linkability as accent-neutralized utterances move away from the original speaker in embedding space while having latency under 241 ms on single GPU.
- Abstract(参考訳): 話者匿名化(SA)システムは、局所的または非ネイティブなアクセントをそのまま残しながら音色を変化させるが、アクセントが匿名性セットを狭める可能性があるため問題となる。
この問題に対処するために,非ネイティブアクセントをネイティブな音色に中和するリアルタイムSAのためのストリーミングモジュールPHONOSを提案する。
提案手法は,音色とリズムを保存したゴールデンスピーカ発話を,サイレント対応DTWアライメントとゼロショット音声変換を用いて,外部セグメントをネイティブ音声に置き換えるものである。
これらの発話は、非ネイティブなコンテンツトークンを40msのルックアヘッドを持つネイティブな等価物にマッピングする因果アクセント翻訳器を監督し、共同エントロピーとCTC損失を用いて訓練する。
評価の結果、非ネイティブアクセントの信頼度は81%低下し、このシフトと一致し、アクセントニュートラル化発話が1つのGPU上で241ms未満のレイテンシを持ちながら、元の話者から離れるにつれて話者リンク性が低下した。
関連論文リスト
- Optimizing Multilingual Text-To-Speech with Accents & Emotions [0.0]
本稿では,アクセントを付加した新しいTSアーキテクチャを提案する。
本稿では,言語固有の音素アライメント型エンコーダ-デコーダアーキテクチャを統合することで,Parler-TTSモデルを拡張した。
テストでは、アクセント精度が23.7%改善し、ネイティブリスナーによる感情認識精度が85.3%向上した。
論文 参考訳(メタデータ) (2025-06-19T13:35:05Z) - Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。