Fugu-MT 論文翻訳(概要): DAST: A Dual-Stream Voice Anonymization Attacker with Staged Training

論文の概要: DAST: A Dual-Stream Voice Anonymization Attacker with Staged Training

arxiv url: http://arxiv.org/abs/2603.12840v2
Date: Mon, 16 Mar 2026 03:47:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 13:51:29.065233
Title: DAST: A Dual-Stream Voice Anonymization Attacker with Staged Training
Title（参考訳）: DAST: 段階訓練付きデュアルストリーム音声匿名攻撃装置
Authors: Ridwan Arefeen, Xiaoxiao Miao, Rong Tong, Aik Beng Ng, Simon See, Timothy Liu,
Abstract要約: 並列エンコーダを用いたスペクトルおよび自己教師型学習機能を融合したデュアルストリーム攻撃手法を提案する。そこで我々は,Stage IIが一般化の主要な要因であることを示し,未知の匿名化データセットに対する強力な攻撃性能を実現する。 Stage IIIでは、ターゲットの匿名化データセットの10%のみの微調整が、EERの観点から現在の最先端の攻撃者を上回っている。
参考スコア（独自算出の注目度）: 20.576907343629188
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Voice anonymization masks vocal traits while preserving linguistic content, which may still leak speaker-specific patterns. To assess and strengthen privacy evaluation, we propose a dual-stream attacker that fuses spectral and self-supervised learning features via parallel encoders with a three-stage training strategy. Stage I establishes foundational speaker-discriminative representations. Stage II leverages the shared identity-transformation characteristics of voice conversion and anonymization, exposing the model to diverse converted speech to build cross-system robustness. Stage III provides lightweight adaptation to target anonymized data. Results on the VoicePrivacy Attacker Challenge (VPAC) dataset demonstrate that Stage II is the primary driver of generalization, enabling strong attacking performance on unseen anonymization datasets. With Stage III, fine-tuning on only 10\% of the target anonymization dataset surpasses current state-of-the-art attackers in terms of EER.
Abstract（参考訳）: 音声匿名化は、話者固有のパターンを漏洩させる可能性のある言語コンテンツを保持しながら、声質をマスクする。プライバシ評価と強化のために,並列エンコーダによるスペクトルおよび自己教師型学習機能を融合した2重ストリーム攻撃手法を提案する。第1段階は、基礎的な話者識別表現を確立する。ステージIIは、音声変換と匿名化の共有ID変換特性を活用し、モデルを多種多様な変換音声に公開し、システム間ロバスト性を構築する。 Stage IIIは、匿名化されたデータに対する軽量な適応を提供する。 VoicePrivacy Attacker Challenge (VPAC)データセットの結果は、Stage IIが一般化の主要な要因であり、目に見えない匿名化データセットに対する強力な攻撃性能を実現することを実証している。 Stage IIIでは、ターゲットの匿名化データセットのわずか10%の微調整が、EERの観点から現在の最先端の攻撃者を上回っている。

関連論文リスト

Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。 1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文参考訳（メタデータ） (2025-10-03T15:43:56Z)
Multi-speaker Text-to-speech Training with Speaker Anonymized Data [40.70515431989197]
話者匿名化(SA)を行ったデータを用いたマルチ話者テキスト音声(TTS)モデルの訓練について検討する。 2つの信号処理ベースと3つのディープニューラルネットワークベースSAメソッドを使用して、マルチスピーカーTSデータセットであるVCTKを匿名化した。我々は、匿名化されたトレーニングデータと、これらのデータを用いてトレーニングされた下流TSモデルの性能を評価するために、広範囲な客観的および主観的な実験を行った。
論文参考訳（メタデータ） (2024-05-20T03:55:44Z)
Voice Anonymization for All -- Bias Evaluation of the Voice Privacy Challenge Baseline System [0.48342038441006807]
本研究では,ボイスプライバシチャレンジの文脈における音声匿名化システムのバイアスについて検討する。我々は、性別と方言に基づいて、話者サブグループ間のパフォーマンス格差を評価するために、新しいベンチマークデータセットをキュレートする。
論文参考訳（メタデータ） (2023-11-27T13:26:49Z)
Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文参考訳（メタデータ） (2023-09-14T09:52:08Z)
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-10T02:55:52Z)
V-Cloak: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization [0.0]
我々は,V-Cloakという音声匿名化システムを開発し,リアルタイム音声匿名化を実現する。設計した匿名化器は、異なる周波数レベルでオリジナル音声の特徴を変調するワンショット生成モデルを備えている。実験結果から,V-Cloakは匿名性能において5つのベースラインより優れていたことが確認された。
論文参考訳（メタデータ） (2022-10-27T02:58:57Z)
The VoicePrivacy 2022 Challenge Evaluation Plan [46.807999940446294]
トレーニング、開発、評価のデータセットが提供される。参加者は開発した匿名化システムを適用する。結果はInterSPEECH 2022と共同で開催されるワークショップで発表される。
論文参考訳（メタデータ） (2022-03-23T15:05:18Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。