論文の概要: SLMIA-SR: Speaker-Level Membership Inference Attacks against Speaker
Recognition Systems
- arxiv url: http://arxiv.org/abs/2309.07983v2
- Date: Mon, 27 Nov 2023 11:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:48:48.653197
- Title: SLMIA-SR: Speaker-Level Membership Inference Attacks against Speaker
Recognition Systems
- Title(参考訳): SLMIA-SR:話者認識システムに対する話者レベルメンバーシップ推論攻撃
- Authors: Guangke Chen and Yedi Zhang and Fu Song
- Abstract要約: SLMIA-SRは、話者認識(SR)に適した最初の会員推論攻撃である
私たちの攻撃は万能で、ホワイトボックスとブラックボックスの両方のシナリオで機能します。
- 参考スコア(独自算出の注目度): 6.057334150052503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership inference attacks allow adversaries to determine whether a
particular example was contained in the model's training dataset. While
previous works have confirmed the feasibility of such attacks in various
applications, none has focused on speaker recognition (SR), a promising
voice-based biometric recognition technique. In this work, we propose SLMIA-SR,
the first membership inference attack tailored to SR. In contrast to
conventional example-level attack, our attack features speaker-level membership
inference, i.e., determining if any voices of a given speaker, either the same
as or different from the given inference voices, have been involved in the
training of a model. It is particularly useful and practical since the training
and inference voices are usually distinct, and it is also meaningful
considering the open-set nature of SR, namely, the recognition speakers were
often not present in the training data. We utilize intra-similarity and
inter-dissimilarity, two training objectives of SR, to characterize the
differences between training and non-training speakers and quantify them with
two groups of features driven by carefully-established feature engineering to
mount the attack. To improve the generalizability of our attack, we propose a
novel mixing ratio training strategy to train attack models. To enhance the
attack performance, we introduce voice chunk splitting to cope with the limited
number of inference voices and propose to train attack models dependent on the
number of inference voices. Our attack is versatile and can work in both
white-box and black-box scenarios. Additionally, we propose two novel
techniques to reduce the number of black-box queries while maintaining the
attack performance. Extensive experiments demonstrate the effectiveness of
SLMIA-SR.
- Abstract(参考訳): メンバーシップ推論攻撃により、敵はモデルのトレーニングデータセットに特定の例が含まれているかどうかを判断できる。
これまでの研究は、様々なアプリケーションでこのような攻撃が実現可能であることを確認しているが、有望な音声に基づく生体認証技術である話者認識(sr)に焦点を当てていない。
本稿ではslmia-srを提案する。slmia-srはsrに適応した最初のメンバーシップ推論攻撃である。
従来の事例レベルアタックとは対照的に、我々の攻撃では、話者レベルのメンバシップ推論、すなわち、与えられた話者の声が、与えられた推論音声と同一か異なるかを決定することが、モデルの訓練に関与している。
訓練音声と推論音声は通常異なるため、特に有用で実用的であり、srのオープンセットの性質、すなわち、認識話者が訓練データに存在しないこともしばしば考慮すれば有意義である。
本研究では,srの2つの訓練目標である相互相似性と相互相似性を用いて,訓練話者と非訓練話者の差異を特徴付け,これらを,注意深く確立した特徴工学を駆使した2つの特徴群で定量化する。
攻撃の一般化性を向上させるために,攻撃モデルを訓練するための新しい混合比訓練戦略を提案する。
攻撃性能を向上させるため,推測音声の限られた数に対応するために音声チャンク分割を導入し,推論音声の数に依存する攻撃モデルを訓練することを提案する。
我々の攻撃は汎用性があり、ホワイトボックスとブラックボックスの両方のシナリオで動作する。
さらに,攻撃性能を維持しながらブラックボックスクエリ数を削減できる2つの新しい手法を提案する。
大規模な実験はSLMIA-SRの有効性を示す。
関連論文リスト
- Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions [25.490988931354185]
本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。
まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。
提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
論文 参考訳(メタデータ) (2024-09-29T07:04:50Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Interpretable Spectrum Transformation Attacks to Speaker Recognition [8.770780902627441]
ブラックボックスの被害者モデルに対する敵声の伝達性を改善するための一般的な枠組みが提案されている。
提案フレームワークは時間周波数領域で音声を動作させ,攻撃の解釈性,伝達性,非受容性を向上させる。
論文 参考訳(メタデータ) (2023-02-21T14:12:29Z) - Adversarial Pretraining of Self-Supervised Deep Networks: Past, Present
and Future [132.34745793391303]
本稿では,畳み込みニューラルネットワークと視覚変換器の両方を含む自己教師型深層ネットワークの対角的事前学習について検討する。
対戦相手を入力レベルと特徴レベルのいずれかの事前学習モデルに組み込むには、既存のアプローチは2つのグループに大別される。
論文 参考訳(メタデータ) (2022-10-23T13:14:06Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - An Adversarially-Learned Turing Test for Dialog Generation Models [45.991035017908594]
本研究では,人間による応答から機械生成応答を識別する頑健なモデルであるATTを学習するための対人訓練手法を提案する。
従来の摂動に基づく手法とは対照的に,我々の判別器は,制限のない多種多様な対向例を反復的に生成することによって訓練されている。
識別器は,DialoGPTやGPT-3などの強力な攻撃者に対して高い精度を示す。
論文 参考訳(メタデータ) (2021-04-16T17:13:14Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。