論文の概要: IPProtect: protecting the intellectual property of visual datasets
during data valuation
- arxiv url: http://arxiv.org/abs/2212.11468v1
- Date: Thu, 22 Dec 2022 03:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:10:51.249960
- Title: IPProtect: protecting the intellectual property of visual datasets
during data valuation
- Title(参考訳): IPProtect: データバリュエーション中の視覚データセットの知的特性を保護する
- Authors: Gursimran Singh, Chendi Wang, Ahnaf Tazwar, Lanjun Wang, Yong Zhang
- Abstract要約: データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する新しいタスクに取り組む。
まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。
- 参考スコア(独自算出の注目度): 8.092563412918128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data trading is essential to accelerate the development of data-driven
machine learning pipelines. The central problem in data trading is to estimate
the utility of a seller's dataset with respect to a given buyer's machine
learning task, also known as data valuation. Typically, data valuation requires
one or more participants to share their raw dataset with others, leading to
potential risks of intellectual property (IP) violations. In this paper, we
tackle the novel task of preemptively protecting the IP of datasets that need
to be shared during data valuation. First, we identify and formalize two kinds
of novel IP risks in visual datasets: data-item (image) IP and statistical
(dataset) IP. Then, we propose a novel algorithm to convert the raw dataset
into a sanitized version, that provides resistance to IP violations, while at
the same time allowing accurate data valuation. The key idea is to limit the
transfer of information from the raw dataset to the sanitized dataset, thereby
protecting against potential intellectual property violations. Next, we analyze
our method for the likely existence of a solution and immunity against
reconstruction attacks. Finally, we conduct extensive experiments on three
computer vision datasets demonstrating the advantages of our method in
comparison to other baselines.
- Abstract(参考訳): データトレーディングは、データ駆動機械学習パイプラインの開発を加速するために不可欠である。
データトレーディングにおける中心的な問題は、特定の買い手の機械学習タスク(データバリュエーションとしても知られる)に関して、売り手のデータセットの有用性を見積もることである。
通常、データのバリュエーションには1人以上の参加者が生のデータセットを他の人と共有する必要があるため、知的財産権(IP)侵害の潜在的なリスクが生じる。
本稿では,データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する,新たな課題に取り組む。
まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。
そこで本研究では,生データセットを正当化バージョンに変換する新しいアルゴリズムを提案し,IP違反に対する耐性を提供すると同時に,正確なデータバリュエーションを実現する。
鍵となるアイデアは、生のデータセットから衛生データセットへの情報の転送を制限することで、潜在的な知的財産侵害を防ぐことである。
次に,ソリューションの存在可能性と再構成攻撃に対する免疫について解析する。
最後に,本手法の利点を他のベースラインと比較して示す3つのコンピュータビジョンデータセットについて広範な実験を行った。
関連論文リスト
- Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.06289658553675]
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
論文 参考訳(メタデータ) (2022-06-19T12:07:32Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - Data privacy protection in microscopic image analysis for material data
mining [8.266759895003279]
本研究では,データプライバシ保護に基づく材料微細構造画像特徴抽出アルゴリズムであるFedTransferを提案する。
1) 多結晶微細構造画像分割タスクにフェデレート学習アルゴリズムを導入し,機械学習をフル活用し,データアイランドを壊し,ユーザデータのプライバシとセキュリティを確保する条件下でモデル一般化能力を向上させる。
ユーザの機密性に緊急でない画像のスタイル情報を共有することにより、異なるユーザのデータ分散の違いによるパフォーマンスペナルティを低減することができる。
論文 参考訳(メタデータ) (2021-11-09T11:16:33Z) - PicoDomain: A Compact High-Fidelity Cybersecurity Dataset [0.9281671380673305]
現在のサイバーセキュリティデータセットは、根拠のない真実を提供するか、匿名化されたデータでそれを行う。
既存のデータセットのほとんどは、プロトタイプ開発中に扱いにくいほどの大きさです。
本稿では,現実的な侵入から得られたZeekログのコンパクトな高忠実度収集であるPicoDomainデータセットを開発した。
論文 参考訳(メタデータ) (2020-08-20T20:18:04Z) - A Critical Overview of Privacy-Preserving Approaches for Collaborative
Forecasting [0.0]
異なるデータ所有者間の協力は、予測品質の改善につながる可能性がある。
ビジネス上の競争要因と個人データ保護の問題から、データ所有者はデータの共有を望まないかもしれない。
本稿では、現状を解析し、データプライバシを保証する既存の方法の欠点をいくつか明らかにする。
論文 参考訳(メタデータ) (2020-04-20T20:21:04Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。