論文の概要: Dataset Ownership Verification for Pre-trained Masked Models
- arxiv url: http://arxiv.org/abs/2507.12022v1
- Date: Wed, 16 Jul 2025 08:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.305421
- Title: Dataset Ownership Verification for Pre-trained Masked Models
- Title(参考訳): 事前学習されたマスクモデルに対するデータセットのオーナシップ検証
- Authors: Yuechen Xie, Jie Song, Yicheng Shan, Xiaoyan Zhang, Yuanyu Wan, Shengxuming Zhang, Jiarui Duan, Mingli Song,
- Abstract要約: マスクドモデリング(DOV4MM)のためのデータセットオーナシップ検証を導入する。
中心的な目的は、不審なブラックボックスモデルがラベルなしデータセットで事前トレーニングされているかどうかを確認することである。
DOV4MMは、モデルが対象のデータセット上で事前トレーニングされている場合、埋め込み空間内でマスクされた情報を再構成することが困難であることは、そのデータセット上で事前トレーニングされていないモデルと顕著に対照的である、という経験的観察に基礎を置いている。
- 参考スコア(独自算出の注目度): 38.47568806316428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality open-source datasets have emerged as a pivotal catalyst driving the swift advancement of deep learning, while facing the looming threat of potential exploitation. Protecting these datasets is of paramount importance for the interests of their owners. The verification of dataset ownership has evolved into a crucial approach in this domain; however, existing verification techniques are predominantly tailored to supervised models and contrastive pre-trained models, rendering them ill-suited for direct application to the increasingly prevalent masked models. In this work, we introduce the inaugural methodology addressing this critical, yet unresolved challenge, termed Dataset Ownership Verification for Masked Modeling (DOV4MM). The central objective is to ascertain whether a suspicious black-box model has been pre-trained on a particular unlabeled dataset, thereby assisting dataset owners in safeguarding their rights. DOV4MM is grounded in our empirical observation that when a model is pre-trained on the target dataset, the difficulty of reconstructing masked information within the embedding space exhibits a marked contrast to models not pre-trained on that dataset. We validated the efficacy of DOV4MM through ten masked image models on ImageNet-1K and four masked language models on WikiText-103. The results demonstrate that DOV4MM rejects the null hypothesis, with a $p$-value considerably below 0.05, surpassing all prior approaches. Code is available at https://github.com/xieyc99/DOV4MM.
- Abstract(参考訳): 高品質なオープンソースデータセットは、潜在的な搾取の脅威に直面しながら、ディープラーニングの急速な進歩を駆動する重要な触媒として現れている。
これらのデータセットを保護することは、所有者の利益にとって最重要事項である。
データセットのオーナシップの検証はこの領域で重要なアプローチへと進化してきたが、既存の検証技術は主に教師付きモデルと対照的な事前訓練モデルに適合しており、ますます普及するマスキングモデルへの直接的な適用には適していない。
本研究では,この決定的かつ未解決な課題に対処する初歩的な手法を,マスケッドモデリングのためのデータセット所有者検証 (DOV4MM) と呼ぶ。
中心的な目的は、不審なブラックボックスモデルが特定のラベル付けされていないデータセットで事前トレーニングされているかどうかを確認することである。
DOV4MMは、モデルが対象のデータセット上で事前トレーニングされている場合、埋め込み空間内でマスクされた情報を再構成することが困難であることは、そのデータセット上で事前トレーニングされていないモデルと顕著に対照的である、という経験的観察に基礎を置いている。
我々は,ImageNet-1K上の10のマスキング画像モデルとWikiText-103上の4つのマスキング言語モデルを用いて,DOV4MMの有効性を検証した。
その結果、DOV4MMは0.05よりかなり低い$p$-値を持つヌル仮説を拒絶し、全ての先行するアプローチを超越していることが示されている。
コードはhttps://github.com/xieyc99/DOV4MMで入手できる。
関連論文リスト
- Holmes: Towards Effective and Harmless Model Ownership Verification to Personalized Large Vision Models via Decoupling Common Features [54.63343151319368]
本稿では、類似の共通特徴を分離し、パーソナライズされたモデルに対する無害モデルオーナシップ検証手法を提案する。
最初の段階では、データセット固有の機能を中断しながら、犠牲者モデルの共通の特徴を保持するシャドウモデルを作成します。
その後、メタ分類器が訓練され、被害者のデータセット固有の特徴を含む不審なモデルを決定することで、盗まれたモデルを特定する。
論文 参考訳(メタデータ) (2025-06-24T15:40:11Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Dataset Ownership Verification in Contrastive Pre-trained Models [37.03747798645621]
コントラスト学習による自己教師付き事前学習モデルに適した,最初のデータセットオーナシップ検証手法を提案する。
提案手法の有効性を,SimCLR, BYOL, SimSiam, MOCO v3, DINO など,複数のコントラスト付き事前学習モデルで検証した。
論文 参考訳(メタデータ) (2025-02-11T05:42:21Z) - Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - A Review and Implementation of Object Detection Models and Optimizations for Real-time Medical Mask Detection during the COVID-19 Pandemic [0.0]
この研究は、Common Objects in Context(COCO)データセット上で最も基本的なオブジェクト検出モデルを評価する。
我々は、医療マスクを用いた人間の顔の話題的、未探索のデータセットをトレーニングするために、YOLOv5と呼ばれる非常に効率的なモデルを選択した。
医療用マスクの正確な検出に移動学習を用いたYOLOv5に基づく最適化モデルを提案する。
論文 参考訳(メタデータ) (2024-05-28T17:27:24Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。