論文の概要: DarkStream: real-time speech anonymization with low latency
- arxiv url: http://arxiv.org/abs/2509.04667v1
- Date: Thu, 04 Sep 2025 21:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.41349
- Title: DarkStream: real-time speech anonymization with low latency
- Title(参考訳): DarkStream: 低レイテンシでリアルタイム音声匿名化
- Authors: Waris Quamer, Ricardo Gutierrez-Osuna,
- Abstract要約: リアルタイム話者匿名化のためのストリーミング音声合成モデルであるDarkStreamを提案する。
DarkStreamは因果波形エンコーダ、ショートルックバッファ、トランスフォーマーベースのコンテキスト層を組み合わせたものだ。
DarkStreamは、コンテンツエンコーダから言語機能に埋め込まれたGAN生成の擬似話者を注入することで、話者識別を匿名化する。
- 参考スコア(独自算出の注目度): 5.872253202878362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DarkStream, a streaming speech synthesis model for real-time speaker anonymization. To improve content encoding under strict latency constraints, DarkStream combines a causal waveform encoder, a short lookahead buffer, and transformer-based contextual layers. To further reduce inference time, the model generates waveforms directly via a neural vocoder, thus removing intermediate mel-spectrogram conversions. Finally, DarkStream anonymizes speaker identity by injecting a GAN-generated pseudo-speaker embedding into linguistic features from the content encoder. Evaluations show our model achieves strong anonymization, yielding close to 50% speaker verification EER (near-chance performance) on the lazy-informed attack scenario, while maintaining acceptable linguistic intelligibility (WER within 9%). By balancing low-latency, robust privacy, and minimal intelligibility degradation, DarkStream provides a practical solution for privacy-preserving real-time speech communication.
- Abstract(参考訳): リアルタイム話者匿名化のためのストリーミング音声合成モデルであるDarkStreamを提案する。
厳しいレイテンシ制約の下でコンテンツエンコーディングを改善するため、DarkStreamは因果波形エンコーダ、ショートルックアヘッドバッファ、トランスフォーマーベースのコンテキスト層を組み合わせた。
さらに推論時間を短縮するため、このモデルはニューラルボコーダを介して直接波形を生成し、中間メル-スペクトログラム変換を除去する。
最後に、DarkStreamは、コンテンツエンコーダから言語機能に埋め込まれたGAN生成の擬似話者を注入することで、話者識別を匿名化する。
評価の結果,このモデルが強い匿名化を実現し,遅延インフォームド攻撃シナリオにおいて50%近い話者検証EER(近距離性能)が得られる一方で,許容可能な言語的知性(WERが9%以内)を維持していることがわかった。
低レイテンシ、堅牢なプライバシ、最小限のインテリジェンス低下のバランスをとることで、DarkStreamは、プライバシを保存するリアルタイム音声通信のための実用的なソリューションを提供する。
関連論文リスト
- InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - End-to-end streaming model for low-latency speech anonymization [11.098498920630782]
本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。
システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。
本稿では,2つのシステムの実装による評価結果について述べる。
論文 参考訳(メタデータ) (2024-06-13T16:15:53Z) - StreamVC: Real-Time Low-Latency Voice Conversion [20.164321451712564]
StreamVCはストリーミング音声変換ソリューションで、任意のソース音声の内容と韻律を保存し、任意のターゲット音声から音声の音色をマッチングする。
StreamVCは、モバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成する。
論文 参考訳(メタデータ) (2024-01-05T22:37:26Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。