論文の概要: CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking
- arxiv url: http://arxiv.org/abs/2503.05794v2
- Date: Tue, 11 Mar 2025 00:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:47.700084
- Title: CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking
- Title(参考訳): CBW:クラスタリングによるバックドア透かしによる話者認証のためのデータセットのオーナシップ検証
- Authors: Yiming Li, Kaiying Yan, Shuo Shao, Tongqing Zhai, Shu-Tao Xia, Zhan Qin, Dacheng Tao,
- Abstract要約: 大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
- 参考スコア(独自算出の注目度): 85.68235482145091
- License:
- Abstract: With the increasing adoption of deep learning in speaker verification, large-scale speech datasets have become valuable intellectual property. To audit and prevent the unauthorized usage of these valuable released datasets, especially in commercial or open-source scenarios, we propose a novel dataset ownership verification method. Our approach introduces a clustering-based backdoor watermark (CBW), enabling dataset owners to determine whether a suspicious third-party model has been trained on a protected dataset under a black-box setting. The CBW method consists of two key stages: dataset watermarking and ownership verification. During watermarking, we implant multiple trigger patterns in the dataset to make similar samples (measured by their feature similarities) close to the same trigger while dissimilar samples are near different triggers. This ensures that any model trained on the watermarked dataset exhibits specific misclassification behaviors when exposed to trigger-embedded inputs. To verify dataset ownership, we design a hypothesis-test-based framework that statistically evaluates whether a suspicious model exhibits the expected backdoor behavior. We conduct extensive experiments on benchmark datasets, verifying the effectiveness and robustness of our method against potential adaptive attacks. The code for reproducing main experiments is available at https://github.com/Radiant0726/CBW
- Abstract(参考訳): 話者認証におけるディープラーニングの導入の増加に伴い、大規模音声データセットは貴重な知的財産となりつつある。
本稿では,これらの価値あるデータセット,特に商用またはオープンソースシナリオの不正使用を監査・防止するために,新しいデータセットの所有権検証手法を提案する。
このアプローチでは、クラスタリングベースのバックドア透かし(CBW)を導入し、ブラックボックス設定下で、疑わしいサードパーティモデルが保護されたデータセット上でトレーニングされているかどうかをデータセット所有者が判断できるようにする。
CBW法は、データセットの透かしとオーナシップの検証という2つの重要な段階で構成されている。
ウォーターマーキング中、複数のトリガパターンをデータセットに埋め込んで、類似したサンプル(特徴的類似性によって測定される)を同じトリガに近づける一方、異種サンプルは異なるトリガに近い。
これにより、ウォーターマークされたデータセットでトレーニングされたモデルが、トリガー埋め込みされた入力に晒された場合に、特定の誤分類の振る舞いを示すことが保証される。
データセットのオーナシップを検証するために,疑わしいモデルが期待されるバックドア動作を示すかどうかを統計的に評価する仮説テストベースのフレームワークを設計する。
ベンチマークデータセットに対する広範な実験を行い、本手法の有効性とロバスト性を検証した。
主要な実験を再現するためのコードはhttps://github.com/Radiant0726/CBWで公開されている。
関連論文リスト
- Dataset Ownership Verification in Contrastive Pre-trained Models [37.03747798645621]
コントラスト学習による自己教師付き事前学習モデルに適した,最初のデータセットオーナシップ検証手法を提案する。
提案手法の有効性を,SimCLR, BYOL, SimSiam, MOCO v3, DINO など,複数のコントラスト付き事前学習モデルで検証した。
論文 参考訳(メタデータ) (2025-02-11T05:42:21Z) - Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - PointNCBW: Towards Dataset Ownership Verification for Point Clouds via Negative Clean-label Backdoor Watermark [20.746346834429925]
我々は,点雲に対するクリーンラベルバックドアベースのデータセット透かしを提案し,有効性とステルス性の両方を保証する。
我々は、トリガーパターンを挿入する前に、形状的にも点的にも非ターゲットカテゴリの点雲を摂動する。
そのため、ウォーターマークされたデータセットでトレーニングされたモデルには、独特だがステルス的なバックドアの挙動がある。
論文 参考訳(メタデータ) (2024-08-10T09:31:58Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - BoBa: Boosting Backdoor Detection through Data Distribution Inference in Federated Learning [26.714674251814586]
フェデレーテッド・ラーニングは、その分散した性質のため、毒殺の被害を受けやすい。
本稿では,この問題を解決するために,分布認識型異常検出機構であるBoBaを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:38:42Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。