論文の概要: DSSmoothing: Toward Certified Dataset Ownership Verification for Pre-trained Language Models via Dual-Space Smoothing
- arxiv url: http://arxiv.org/abs/2510.15303v1
- Date: Fri, 17 Oct 2025 04:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.470876
- Title: DSSmoothing: Toward Certified Dataset Ownership Verification for Pre-trained Language Models via Dual-Space Smoothing
- Title(参考訳): DSSmoothing:Dual-Space Smoothingによる事前学習言語モデルのデータセット所有者認証に向けて
- Authors: Ting Qiao, Xing Liu, Wenke Huang, Jianbin Li, Zhaoxin Fan, Yiming Li,
- Abstract要約: 既存のデータセットのオーナシップ検証手法は、推論中に透かしが安定していると仮定する。
2次元空間の平滑化に基づく PLM のための最初の認証済みデータセットのオーナシップ検証手法を提案する。
DSSmoothingは安定かつ信頼性の高い検証性能を実現し、潜在的適応攻撃に対する堅牢性を示す。
- 参考スコア(独自算出の注目度): 36.37263264594975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large web-scale datasets have driven the rapid advancement of pre-trained language models (PLMs), but unauthorized data usage has raised serious copyright concerns. Existing dataset ownership verification (DOV) methods typically assume that watermarks remain stable during inference; however, this assumption often fails under natural noise and adversary-crafted perturbations. We propose the first certified dataset ownership verification method for PLMs based on dual-space smoothing (i.e., DSSmoothing). To address the challenges of text discreteness and semantic sensitivity, DSSmoothing introduces continuous perturbations in the embedding space to capture semantic robustness and applies controlled token reordering in the permutation space to capture sequential robustness. DSSmoothing consists of two stages: in the first stage, triggers are collaboratively embedded in both spaces to generate norm-constrained and robust watermarked datasets; in the second stage, randomized smoothing is applied in both spaces during verification to compute the watermark robustness (WR) of suspicious models and statistically compare it with the principal probability (PP) values of a set of benign models. Theoretically, DSSmoothing provides provable robustness guarantees for dataset ownership verification by ensuring that WR consistently exceeds PP under bounded dual-space perturbations. Extensive experiments on multiple representative web datasets demonstrate that DSSmoothing achieves stable and reliable verification performance and exhibits robustness against potential adaptive attacks.
- Abstract(参考訳): 大規模なWebスケールデータセットは、事前訓練された言語モデル(PLM)の急速な進歩を促しているが、許可されていないデータの使用は、重大な著作権上の懸念を引き起こしている。
既存のデータセットオーナシップ検証(DOV)手法は通常、推論中に透かしが安定していると仮定するが、この仮定は自然ノイズや逆向きの摂動の下で失敗することが多い。
本稿では,2次元空間平滑化(DSSmoothing)に基づくPLMの最初の認証済みデータセットのオーナシップ検証手法を提案する。
テキストの離散性とセマンティック感度の課題に対処するため、DSSmoothingは埋め込み空間における連続的な摂動を導入し、セマンティックロバスト性を捉える。
DSSmoothingは2つの段階から構成される: 第一段階ではトリガーを両空間に協調的に埋め込み、標準制約付きおよびロバストなウォーターマーク付きデータセットを生成する。第二段階では、不審モデルのウォーターマークロバストネス(WR)を計算し、それを一連の良性モデルの主確率(PP)値と統計的に比較する。
理論的には、DSSmoothingはWRが有界な双対空間摂動の下で一貫してPPを超えることを保証することにより、データセットの所有権検証のための証明可能な堅牢性を保証する。
複数の代表的Webデータセットに対する大規模な実験は、DSSmoothingが安定かつ信頼性の高い検証性能を達成し、潜在的適応攻撃に対する堅牢性を示すことを示している。
関連論文リスト
- Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - CertDW: Towards Certified Dataset Ownership Verification via Conformal Prediction [48.82467166657901]
本稿では,最初の認証データセット透かし(CertDW)とCertDWベースの認証データセットオーナシップ検証手法を提案する。
共形予測に触発されて,主確率 (PP) と透かし頑健性 (WR) の2つの統計指標を導入する。
我々は、不審モデルのWR値が、透かしのないデータセットでトレーニングされた良性モデルのPP値を大幅に上回る場合に、PPとWRの間に証明可能な低い境界が存在することを証明した。
論文 参考訳(メタデータ) (2025-06-16T07:17:23Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - DRIVE: Dual-Robustness via Information Variability and Entropic Consistency in Source-Free Unsupervised Domain Adaptation [10.127634263641877]
ラベル付きデータなしで機械学習モデルを新しいドメインに適応させることは、医療画像、自律運転、リモートセンシングといったアプリケーションにおいて重要な課題である。
Source-Free Unsupervised Domain Adaptation (SFUDA)と呼ばれるこのタスクでは、未ラベルのターゲットデータのみを使用して、トレーニング済みのモデルをターゲットドメインに適応させる。
既存のSFUDAメソッドは、しばしば単一モデルアーキテクチャに依存し、ターゲットドメインにおける不確実性と可変性に悩まされる。
本稿では、2重モデルアーキテクチャを利用した新しいSFUDAフレームワークDRIVEを提案する。
論文 参考訳(メタデータ) (2024-11-24T20:35:04Z) - D2SP: Dynamic Dual-Stage Purification Framework for Dual Noise Mitigation in Vision-based Affective Recognition [32.74206402632733]
ノイズは、論理的なラベル付けを損なう低品質なキャプチャや、アノテーションのバイアスによる誤ラベルに悩まされるインスタンスから生じます。
textbfSeeking textbfCertain data textbfIn extensive textbfUncertain data (SCIU)
このイニシアチブは、これらの不確実性のDFERデータセットを浄化することを目的としており、トレーニングプロセスでクリーンで検証されたデータのみが使用されることを保証する。
論文 参考訳(メタデータ) (2024-06-24T09:25:02Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。