Fugu-MT 論文翻訳(概要): IPProtect: protecting the intellectual property of visual datasets during data valuation

論文の概要: IPProtect: protecting the intellectual property of visual datasets during data valuation

arxiv url: http://arxiv.org/abs/2212.11468v1
Date: Thu, 22 Dec 2022 03:36:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-23 15:10:51.249960
Title: IPProtect: protecting the intellectual property of visual datasets during data valuation
Title（参考訳）: IPProtect: データバリュエーション中の視覚データセットの知的特性を保護する
Authors: Gursimran Singh, Chendi Wang, Ahnaf Tazwar, Lanjun Wang, Yong Zhang
Abstract要約: データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する新しいタスクに取り組む。まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。
参考スコア（独自算出の注目度）: 8.092563412918128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data trading is essential to accelerate the development of data-driven machine learning pipelines. The central problem in data trading is to estimate the utility of a seller's dataset with respect to a given buyer's machine learning task, also known as data valuation. Typically, data valuation requires one or more participants to share their raw dataset with others, leading to potential risks of intellectual property (IP) violations. In this paper, we tackle the novel task of preemptively protecting the IP of datasets that need to be shared during data valuation. First, we identify and formalize two kinds of novel IP risks in visual datasets: data-item (image) IP and statistical (dataset) IP. Then, we propose a novel algorithm to convert the raw dataset into a sanitized version, that provides resistance to IP violations, while at the same time allowing accurate data valuation. The key idea is to limit the transfer of information from the raw dataset to the sanitized dataset, thereby protecting against potential intellectual property violations. Next, we analyze our method for the likely existence of a solution and immunity against reconstruction attacks. Finally, we conduct extensive experiments on three computer vision datasets demonstrating the advantages of our method in comparison to other baselines.
Abstract（参考訳）: データトレーディングは、データ駆動機械学習パイプラインの開発を加速するために不可欠である。データトレーディングにおける中心的な問題は、特定の買い手の機械学習タスク(データバリュエーションとしても知られる)に関して、売り手のデータセットの有用性を見積もることである。通常、データのバリュエーションには1人以上の参加者が生のデータセットを他の人と共有する必要があるため、知的財産権(IP)侵害の潜在的なリスクが生じる。本稿では,データバリュエーション中に共有する必要があるデータセットのIPをプリエンプティブに保護する,新たな課題に取り組む。まず、視覚データセットにおける2種類の新しいIPリスク、すなわち、データイテム(画像)IPと統計(データセット)IPを特定し、形式化する。そこで本研究では,生データセットを正当化バージョンに変換する新しいアルゴリズムを提案し,IP違反に対する耐性を提供すると同時に,正確なデータバリュエーションを実現する。鍵となるアイデアは、生のデータセットから衛生データセットへの情報の転送を制限することで、潜在的な知的財産侵害を防ぐことである。次に,ソリューションの存在可能性と再構成攻撃に対する免疫について解析する。最後に,本手法の利点を他のベースラインと比較して示す3つのコンピュータビジョンデータセットについて広範な実験を行った。

関連論文リスト

Sell Data to AI Algorithms Without Revealing It: Secure Data Valuation and Sharing via Homomorphic Encryption [10.12846924939717]
原資産を復号することなく外部データの有用性を定量化するための,プライバシ保護フレームワークであるTrustworthy Influence Protocol(TIP)を導入する。均質暗号化と勾配に基づく影響関数を統合することで、当社のアプローチは、購入者の特定のAIモデルに対して、正確で盲目なデータポイントのスコア付けを可能にします。医療と生成AIドメインにおける実証シミュレーションは、フレームワークの経済的ポテンシャルを検証する。
論文参考訳（メタデータ） (2025-12-04T16:35:09Z)
DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [59.66984417026933]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文参考訳（メタデータ） (2025-07-08T03:07:15Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
Privacy Preservation through Practical Machine Unlearning [0.0]
本稿では,SISAフレームワークを用いたNative RetrainingやExact Unlearningなどの手法について検討する。部分的にラベル付けされたデータセットがもたらす課題に対処するために、未学習の原則をPositive Unlabeled (PU) Learningに統合する可能性を探る。
論文参考訳（メタデータ） (2025-02-15T02:25:27Z)
Privacy-Preserving Dataset Combination [1.0485433579460999]
SecureKLは、プライバシリークをゼロとしたデータセットからデータセット評価のためのプロトコルである。 SecureKLはソースデータセットを候補に対して評価し、プライベートな計算で内部的にデータセット分散メトリクスを実行する。現実世界のデータでは、SecureKLは高い一貫性(90%以上の非民間データとの相関関係)を実現し、有益なデータコラボレーションの特定に成功している。
論文参考訳（メタデータ） (2025-02-09T03:54:17Z)
Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。 PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文参考訳（メタデータ） (2024-11-01T17:13:14Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文参考訳（メタデータ） (2024-05-28T15:04:17Z)
Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2023-11-22T22:15:17Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Secure Multiparty Computation for Synthetic Data Generation from Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文参考訳（メタデータ） (2022-10-13T20:09:17Z)
Predicting Seriousness of Injury in a Traffic Accident: A New Imbalanced Dataset and Benchmark [62.997667081978825]
本稿では,交通事故における傷害の重大性を予測するために,機械学習アルゴリズムの性能を評価する新しいデータセットを提案する。データセットは、英国運輸省から公開されているデータセットを集約することで作成される。
論文参考訳（メタデータ） (2022-05-20T21:15:26Z)
PicoDomain: A Compact High-Fidelity Cybersecurity Dataset [0.9281671380673305]
現在のサイバーセキュリティデータセットは、根拠のない真実を提供するか、匿名化されたデータでそれを行う。既存のデータセットのほとんどは、プロトタイプ開発中に扱いにくいほどの大きさです。本稿では,現実的な侵入から得られたZeekログのコンパクトな高忠実度収集であるPicoDomainデータセットを開発した。
論文参考訳（メタデータ） (2020-08-20T20:18:04Z)
A Critical Overview of Privacy-Preserving Approaches for Collaborative Forecasting [0.0]
異なるデータ所有者間の協力は、予測品質の改善につながる可能性がある。ビジネス上の競争要因と個人データ保護の問題から、データ所有者はデータの共有を望まないかもしれない。本稿では、現状を解析し、データプライバシを保証する既存の方法の欠点をいくつか明らかにする。
論文参考訳（メタデータ） (2020-04-20T20:21:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。