論文の概要: IPProtect: protecting the intellectual property of visual datasets
during data valuation
- arxiv url: http://arxiv.org/abs/2212.11468v1
- Date: Thu, 22 Dec 2022 03:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:10:51.249960
- Title: IPProtect: protecting the intellectual property of visual datasets
during data valuation
- Title(参考訳): IPProtect: データバリュエーション中の視覚データセットの知的特性を保護する
- Authors: Gursimran Singh, Chendi Wang, Ahnaf Tazwar, Lanjun Wang, Yong Zhang
- Abstract要約: データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する新しいタスクに取り組む。
まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。
- 参考スコア(独自算出の注目度): 8.092563412918128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data trading is essential to accelerate the development of data-driven
machine learning pipelines. The central problem in data trading is to estimate
the utility of a seller's dataset with respect to a given buyer's machine
learning task, also known as data valuation. Typically, data valuation requires
one or more participants to share their raw dataset with others, leading to
potential risks of intellectual property (IP) violations. In this paper, we
tackle the novel task of preemptively protecting the IP of datasets that need
to be shared during data valuation. First, we identify and formalize two kinds
of novel IP risks in visual datasets: data-item (image) IP and statistical
(dataset) IP. Then, we propose a novel algorithm to convert the raw dataset
into a sanitized version, that provides resistance to IP violations, while at
the same time allowing accurate data valuation. The key idea is to limit the
transfer of information from the raw dataset to the sanitized dataset, thereby
protecting against potential intellectual property violations. Next, we analyze
our method for the likely existence of a solution and immunity against
reconstruction attacks. Finally, we conduct extensive experiments on three
computer vision datasets demonstrating the advantages of our method in
comparison to other baselines.
- Abstract(参考訳): データトレーディングは、データ駆動機械学習パイプラインの開発を加速するために不可欠である。
データトレーディングにおける中心的な問題は、特定の買い手の機械学習タスク(データバリュエーションとしても知られる)に関して、売り手のデータセットの有用性を見積もることである。
通常、データのバリュエーションには1人以上の参加者が生のデータセットを他の人と共有する必要があるため、知的財産権(IP)侵害の潜在的なリスクが生じる。
本稿では,データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する,新たな課題に取り組む。
まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。
そこで本研究では,生データセットを正当化バージョンに変換する新しいアルゴリズムを提案し,IP違反に対する耐性を提供すると同時に,正確なデータバリュエーションを実現する。
鍵となるアイデアは、生のデータセットから衛生データセットへの情報の転送を制限することで、潜在的な知的財産侵害を防ぐことである。
次に,ソリューションの存在可能性と再構成攻撃に対する免疫について解析する。
最後に,本手法の利点を他のベースラインと比較して示す3つのコンピュータビジョンデータセットについて広範な実験を行った。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。
本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced
Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。
データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文 参考訳(メタデータ) (2022-05-20T21:15:26Z) - PicoDomain: A Compact High-Fidelity Cybersecurity Dataset [0.9281671380673305]
現在のサイバーセキュリティデータセットは、根拠のない真実を提供するか、匿名化されたデータでそれを行う。
既存のデータセットのほとんどは、プロトタイプ開発中に扱いにくいほどの大きさです。
本稿では,現実的な侵入から得られたZeekログのコンパクトな高忠実度収集であるPicoDomainデータセットを開発した。
論文 参考訳(メタデータ) (2020-08-20T20:18:04Z) - A Critical Overview of Privacy-Preserving Approaches for Collaborative
Forecasting [0.0]
異なるデータ所有者間の協力は、予測品質の改善につながる可能性がある。
ビジネス上の競争要因と個人データ保護の問題から、データ所有者はデータの共有を望まないかもしれない。
本稿では、現状を解析し、データプライバシを保証する既存の方法の欠点をいくつか明らかにする。
論文 参考訳(メタデータ) (2020-04-20T20:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。