論文の概要: Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining
- arxiv url: http://arxiv.org/abs/2410.18371v2
- Date: Sat, 02 Nov 2024 10:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:26:13.755042
- Title: Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining
- Title(参考訳): Gibberishは、コントラスト言語-オーディオ事前学習におけるメンバーシップ推論検出に必要なすべて
- Authors: Ruoxi Cheng, Yizhong Ding, Shuirong Cao, Shitong Shao, Zhiqiang Wang,
- Abstract要約: 既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
- 参考スコア(独自算出の注目度): 3.7144455366570055
- License:
- Abstract: Audio can disclose PII, particularly when combined with related text data. Therefore, it is essential to develop tools to detect privacy leakage in Contrastive Language-Audio Pretraining(CLAP). Existing MIAs need audio as input, risking exposure of voiceprint and requiring costly shadow models. We first propose PRMID, a membership inference detector based probability ranking given by CLAP, which does not require training shadow models but still requires both audio and text of the individual as input. To address these limitations, we then propose USMID, a textual unimodal speaker-level membership inference detector, querying the target model using only text data. We randomly generate textual gibberish that are clearly not in training dataset. Then we extract feature vectors from these texts using the CLAP model and train a set of anomaly detectors on them. During inference, the feature vector of each test text is input into the anomaly detector to determine if the speaker is in the training set (anomalous) or not (normal). If available, USMID can further enhance detection by integrating real audio of the tested speaker. Extensive experiments on various CLAP model architectures and datasets demonstrate that USMID outperforms baseline methods using only text data.
- Abstract(参考訳): オーディオは、特に関連するテキストデータと組み合わせた場合、PIIを開示することができる。
そのため、CLAP(Contrastive Language-Audio Pretraining)において、プライバシー漏洩を検出するツールを開発することが不可欠である。
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
PRMIDはCLAPが与える確率ランキングであり、訓練シャドウモデルを必要としないが、入力として個人の音声とテキストの両方を必要とする。
これらの制約に対処するため,テキストデータのみを用いて対象モデルを問合せするテキスト非モーダル話者レベルメンバシップ推定器USMIDを提案する。
トレーニングデータセットに明らかに含まれていないテキストジベリをランダムに生成する。
そして、CLAPモデルを用いてこれらのテキストから特徴ベクトルを抽出し、その上に一連の異常検出器を訓練する。
推論中、各テストテキストの特徴ベクトルが異常検出器に入力され、話者がトレーニングセット(異常)にあるか否か(正常)を決定する。
もし利用可能であれば、USMIDは、テストされたスピーカーの実際のオーディオを統合することで、検出をさらに強化することができる。
各種CLAPモデルアーキテクチャとデータセットに関する大規模な実験は、USMIDがテキストデータのみを使用してベースラインメソッドより優れていることを示した。
関連論文リスト
- Identity Inference from CLIP Models using Only Textual Data [12.497110441765274]
CLIPモデルにおけるID推論の既存の方法は、完全なPIIでモデルをクエリする必要がある。
従来のメンバーシップ推論攻撃(MIA)は、ターゲットモデルの振る舞いを模倣するためにシャドーモデルを訓練する。
テキストデータのみを用いてターゲットモデルに問い合わせる新しいID推論法である,CLIP モデルにおけるテキスト・ユニモーダル・ディテクター (TUNI) を提案する。
論文 参考訳(メタデータ) (2024-05-23T12:54:25Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Introducing Model Inversion Attacks on Automatic Speaker Recognition [0.9558392439655015]
モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することを可能にする。
本稿では,(1)訓練されたMLモデルから音声サンプルを再構成し,(2)話者の生体情報に有意な洞察を与える中間的音声特徴表現を抽出する手法を提案する。
我々のスライディングMIは、オーディオサンプルの重なり合うチャンクを反復反転することで標準MIを拡張します。
逆音声データを用いて話者を偽装する音声サンプルを生成し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。
論文 参考訳(メタデータ) (2023-01-09T08:51:15Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。