論文の概要: Novel Loss-Enhanced Universal Adversarial Patches for Sustainable Speaker Privacy
- arxiv url: http://arxiv.org/abs/2505.19951v1
- Date: Mon, 26 May 2025 13:16:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.452192
- Title: Novel Loss-Enhanced Universal Adversarial Patches for Sustainable Speaker Privacy
- Title(参考訳): 持続可能な話者プライバシのための新しい損失増大ユニバーサル・アドバイザリー・パッチ
- Authors: Elvir Karimov, Alexander Varlamov, Danil Ivanov, Dmitrii Korzh, Oleg Y. Rogov,
- Abstract要約: 本研究は,新規な指数トータル・バリアンス(TV)損失関数を導入,活用し,UAP強度と非受容性に肯定的な影響を及ぼす実験的証拠を提供する。
拡張性のあるUAP挿入手順を新たに提案し,様々なオーディオ長に対して一様に高い性能を示す。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning voice models are commonly used nowadays, but the safety processing of personal data, such as human identity and speech content, remains suspicious. To prevent malicious user identification, speaker anonymization methods were proposed. Current methods, particularly based on universal adversarial patch (UAP) applications, have drawbacks such as significant degradation of audio quality, decreased speech recognition quality, low transferability across different voice biometrics models, and performance dependence on the input audio length. To mitigate these drawbacks, in this work, we introduce and leverage the novel Exponential Total Variance (TV) loss function and provide experimental evidence that it positively affects UAP strength and imperceptibility. Moreover, we present a novel scalable UAP insertion procedure and demonstrate its uniformly high performance for various audio lengths.
- Abstract(参考訳): 近年、深層学習音声モデルが一般的に使用されているが、人間のアイデンティティや音声コンテンツといった個人データの安全処理は疑わしいままである。
悪意のあるユーザ識別を防止するため,話者匿名化手法が提案された。
現在の手法は、特にUAP(Universal Adversarial patch)の応用に基づいており、音声品質の大幅な劣化、音声認識品質の低下、異なる音声バイオメトリックスモデル間の転送可能性の低下、入力音声長への性能依存などの欠点がある。
これらの欠点を軽減するため,本研究では,新規な指数トータル・バリアンス(TV)損失関数を導入,活用し,UAP強度と非受容性に肯定的な影響を及ぼす実験的証拠を提供する。
さらに,新しい拡張性のあるUAP挿入手法を提案し,様々なオーディオ長に対して一様に高い性能を示す。
関連論文リスト
- SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline [29.85417427778784]
SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。
ターゲット音声抽出および音声分離タスクにおける最先端の知性および品質を実現する。
論文 参考訳(メタデータ) (2025-05-25T21:00:48Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。
我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。
当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文 参考訳(メタデータ) (2024-11-28T05:23:22Z) - Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition [40.44769351506048]
Perceiver-PromptはWhisperの大規模モデル上でP-Tuningを利用する話者適応手法である。
我々はまずLoRAを用いてWhisperを微調整し、次にトレーニング可能なPerceiverを統合して可変長入力から固定長話者プロンプトを生成する。
論文 参考訳(メタデータ) (2024-06-14T09:36:46Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文 参考訳(メタデータ) (2021-10-11T13:40:07Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。