論文の概要: Data Provenance Inference in Machine Learning
- arxiv url: http://arxiv.org/abs/2211.13416v1
- Date: Thu, 24 Nov 2022 04:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:40:34.435265
- Title: Data Provenance Inference in Machine Learning
- Title(参考訳): 機械学習におけるデータプロヴァンス推論
- Authors: Mingxue Xu, Xiang-Yang Li
- Abstract要約: 本稿では,MLトレーニングデータの生成,収集,処理特性を推定するデータ前処理法を提案する。
MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。
著者」がデータ証明である場合、最も正確な推測精度はホワイトボックスのテキストモデルで98.96%に達する。
- 参考スコア(独自算出の注目度): 11.757761200814027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unintended memorization of various information granularity has garnered
academic attention in recent years, e.g. membership inference and property
inference. How to inversely use this privacy leakage to facilitate real-world
applications is a growing direction; the current efforts include dataset
ownership inference and user auditing. Standing on the data lifecycle and ML
model production, we propose an inference process named Data Provenance
Inference, which is to infer the generation, collection or processing property
of the ML training data, to assist ML developers in locating the training data
gaps without maintaining strenuous metadata. We formularly define the data
provenance and the data provenance inference task in ML training. Then we
propose a novel inference strategy combining embedded-space multiple instance
classification and shadow learning. Comprehensive evaluations cover language,
visual and structured data in black-box and white-box settings, with diverse
kinds of data provenance (i.e. business, county, movie, user). Our best
inference accuracy achieves 98.96% in the white-box text model when "author" is
the data provenance. The experimental results indicate that, in general, the
inference performance positively correlated with the amount of reference data
for inference, the depth and also the amount of the parameter of the accessed
layer. Furthermore, we give a post-hoc statistical analysis of the data
provenance definition to explain when our proposed method works well.
- Abstract(参考訳): 様々な情報の意図しない記憶は、近年、メンバーシップ推論やプロパティ推論など、学術的な注目を集めている。
現在の取り組みには、データセットのオーナシップの推測とユーザ監査が含まれる。
データライフサイクルとMLモデル生産を基盤として,MLトレーニングデータの生成,収集,処理特性を推測するデータプロバンス推論という推論プロセスを提案し,厳格なメタデータを維持することなく,トレーニングデータギャップの配置を支援する。
MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。
次に,組込み空間の多重インスタンス分類と影学習を組み合わせた新しい推論手法を提案する。
包括的な評価は、さまざまな種類のデータ(ビジネス、郡、映画、ユーザー)を持つ、ブラックボックスとホワイトボックスの設定で言語、ビジュアル、構造化されたデータをカバーする。
著者」がデータ証明である場合、最も正確な推測精度はホワイトボックステキストモデルで98.96%に達する。
実験の結果, 一般に, 推定性能は, 推定のための参照データ量, 深さ, およびアクセス層のパラメータ量と正の相関を示した。
さらに,提案手法がうまく機能するかを説明するために,データプロヴァンス定義のポストホックな統計解析を行う。
関連論文リスト
- Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - In-Context Probing Approximates Influence Function for Data Valuation [16.404477234171733]
そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。
実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T02:06:56Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Leave-one-out Distinguishability in Machine Learning [23.475469946428717]
本稿では、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めると定量化する分析フレームワークを提案する。
これは、データ**記憶*と情報*記憶*と、機械学習におけるデータポイントのトレーニング**影響*とを測る鍵となります。
論文 参考訳(メタデータ) (2023-09-29T15:08:28Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Federated Estimation of Causal Effects from Observational Data [19.657789891394504]
フェデレートされたデータソースを用いた因果推論のための新しいフレームワークを提案する。
我々は、異なるプライベートデータソースからの局所因果効果を中央集権化せずに評価し、統合する。
論文 参考訳(メタデータ) (2021-05-31T08:06:00Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。