論文の概要: Dataset Ownership Verification in Contrastive Pre-trained Models
- arxiv url: http://arxiv.org/abs/2502.07276v1
- Date: Tue, 11 Feb 2025 05:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:32.246314
- Title: Dataset Ownership Verification in Contrastive Pre-trained Models
- Title(参考訳): 対照的な事前学習モデルにおけるデータセットのオーナシップ検証
- Authors: Yuechen Xie, Jie Song, Mengqi Xue, Haofei Zhang, Xingen Wang, Bingde Hu, Genlang Chen, Mingli Song,
- Abstract要約: コントラスト学習による自己教師付き事前学習モデルに適した,最初のデータセットオーナシップ検証手法を提案する。
提案手法の有効性を,SimCLR, BYOL, SimSiam, MOCO v3, DINO など,複数のコントラスト付き事前学習モデルで検証した。
- 参考スコア(独自算出の注目度): 37.03747798645621
- License:
- Abstract: High-quality open-source datasets, which necessitate substantial efforts for curation, has become the primary catalyst for the swift progress of deep learning. Concurrently, protecting these datasets is paramount for the well-being of the data owner. Dataset ownership verification emerges as a crucial method in this domain, but existing approaches are often limited to supervised models and cannot be directly extended to increasingly popular unsupervised pre-trained models. In this work, we propose the first dataset ownership verification method tailored specifically for self-supervised pre-trained models by contrastive learning. Its primary objective is to ascertain whether a suspicious black-box backbone has been pre-trained on a specific unlabeled dataset, aiding dataset owners in upholding their rights. The proposed approach is motivated by our empirical insights that when models are trained with the target dataset, the unary and binary instance relationships within the embedding space exhibit significant variations compared to models trained without the target dataset. We validate the efficacy of this approach across multiple contrastive pre-trained models including SimCLR, BYOL, SimSiam, MOCO v3, and DINO. The results demonstrate that our method rejects the null hypothesis with a $p$-value markedly below $0.05$, surpassing all previous methodologies. Our code is available at https://github.com/xieyc99/DOV4CL.
- Abstract(参考訳): キュレーションに多大な努力を要する高品質なオープンソースデータセットは、ディープラーニングの急速な進歩の第一の触媒となっている。
同時に、これらのデータセットを保護することは、データ所有者の幸福にとって最重要である。
データセットのオーナシップの検証はこの領域で重要な方法として現れるが、既存のアプローチは教師付きモデルに限られており、より一般的な教師なし事前訓練モデルに直接拡張することはできない。
本研究では,コントラスト学習による自己教師付き事前学習モデルに適した,最初のデータセットオーナシップ検証手法を提案する。
その主な目的は、不審なブラックボックスのバックボーンが特定のラベル付けされていないデータセットで事前トレーニングされているかどうかを確認することであり、データセット所有者が自身の権利を維持するのに役立つ。
提案手法は,モデルが対象のデータセットでトレーニングされた場合,埋め込み空間内の一元的および二元的インスタンス関係は,対象のデータセットなしでトレーニングされたモデルと比較して大きな変動を示すという経験的知見に動機付けられている。
提案手法の有効性を,SimCLR, BYOL, SimSiam, MOCO v3, DINO など,複数のコントラスト付き事前学習モデルで検証した。
以上の結果から,提案手法は従来の手法をはるかに上回る$0.05$以下の値でヌル仮説を否定することを示した。
私たちのコードはhttps://github.com/xieyc99/DOV4CLで利用可能です。
関連論文リスト
- Data Taggants: Dataset Ownership Verification via Harmless Targeted Data Poisoning [12.80649024603656]
本稿では,非バックドアデータセットのオーナシップ検証技術であるデータタグを新たに導入する。
我々は、VTモデルとResNetモデルと最先端のトレーニングレシピを用いて、ImageNet1kの包括的で現実的な実験を通してアプローチを検証する。
論文 参考訳(メタデータ) (2024-10-09T12:49:23Z) - Fairness without Sensitive Attributes via Knowledge Sharing [13.141672574114597]
本稿では,信頼度に基づく階層型分類手法であるReckonerを提案する。
実験の結果、ReckonerはCompASデータセットとNew Adultデータセットにおいて、最先端のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-27T06:16:14Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Non-iterative optimization of pseudo-labeling thresholds for training
object detection models from multiple datasets [2.1485350418225244]
低コストデータセットの集合からオブジェクト検出を学習するために、擬似ラベル閾値を最適化する非定型的手法を提案する。
提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-19T00:31:34Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z) - Distill and Fine-tune: Effective Adaptation from a Black-box Source
Model [138.12678159620248]
Unsupervised Domain Adapt (UDA) は、既存のラベル付きデータセット (source) の知識を新しいラベル付きデータセット (target) に転送することを目的としています。
Distill and Fine-tune (Dis-tune) という新しい二段階適応フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-04T05:29:05Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。