論文の概要: Data Provenance Inference in Machine Learning
- arxiv url: http://arxiv.org/abs/2211.13416v1
- Date: Thu, 24 Nov 2022 04:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:40:34.435265
- Title: Data Provenance Inference in Machine Learning
- Title(参考訳): 機械学習におけるデータプロヴァンス推論
- Authors: Mingxue Xu, Xiang-Yang Li
- Abstract要約: 本稿では,MLトレーニングデータの生成,収集,処理特性を推定するデータ前処理法を提案する。
MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。
著者」がデータ証明である場合、最も正確な推測精度はホワイトボックスのテキストモデルで98.96%に達する。
- 参考スコア(独自算出の注目度): 11.757761200814027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unintended memorization of various information granularity has garnered
academic attention in recent years, e.g. membership inference and property
inference. How to inversely use this privacy leakage to facilitate real-world
applications is a growing direction; the current efforts include dataset
ownership inference and user auditing. Standing on the data lifecycle and ML
model production, we propose an inference process named Data Provenance
Inference, which is to infer the generation, collection or processing property
of the ML training data, to assist ML developers in locating the training data
gaps without maintaining strenuous metadata. We formularly define the data
provenance and the data provenance inference task in ML training. Then we
propose a novel inference strategy combining embedded-space multiple instance
classification and shadow learning. Comprehensive evaluations cover language,
visual and structured data in black-box and white-box settings, with diverse
kinds of data provenance (i.e. business, county, movie, user). Our best
inference accuracy achieves 98.96% in the white-box text model when "author" is
the data provenance. The experimental results indicate that, in general, the
inference performance positively correlated with the amount of reference data
for inference, the depth and also the amount of the parameter of the accessed
layer. Furthermore, we give a post-hoc statistical analysis of the data
provenance definition to explain when our proposed method works well.
- Abstract(参考訳): 様々な情報の意図しない記憶は、近年、メンバーシップ推論やプロパティ推論など、学術的な注目を集めている。
現在の取り組みには、データセットのオーナシップの推測とユーザ監査が含まれる。
データライフサイクルとMLモデル生産を基盤として,MLトレーニングデータの生成,収集,処理特性を推測するデータプロバンス推論という推論プロセスを提案し,厳格なメタデータを維持することなく,トレーニングデータギャップの配置を支援する。
MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。
次に,組込み空間の多重インスタンス分類と影学習を組み合わせた新しい推論手法を提案する。
包括的な評価は、さまざまな種類のデータ(ビジネス、郡、映画、ユーザー)を持つ、ブラックボックスとホワイトボックスの設定で言語、ビジュアル、構造化されたデータをカバーする。
著者」がデータ証明である場合、最も正確な推測精度はホワイトボックステキストモデルで98.96%に達する。
実験の結果, 一般に, 推定性能は, 推定のための参照データ量, 深さ, およびアクセス層のパラメータ量と正の相関を示した。
さらに,提案手法がうまく機能するかを説明するために,データプロヴァンス定義のポストホックな統計解析を行う。
関連論文リスト
- Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Leave-one-out Distinguishability in Machine Learning [25.645264450211133]
我々は、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めて定量化する新しいフレームワークを導入する。
この問題は、機械学習において**記憶*と*情報漏洩*を測定する上で鍵となる。
本手法は,トレーニングデータに関連する記憶とプライバシーのリスクに関する実証的な尺度をいかに拡張し,洗練するかを説明する。
論文 参考訳(メタデータ) (2023-09-29T15:08:28Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Federated Estimation of Causal Effects from Observational Data [19.657789891394504]
フェデレートされたデータソースを用いた因果推論のための新しいフレームワークを提案する。
我々は、異なるプライベートデータソースからの局所因果効果を中央集権化せずに評価し、統合する。
論文 参考訳(メタデータ) (2021-05-31T08:06:00Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - GRAFFL: Gradient-free Federated Learning of a Bayesian Generative Model [8.87104231451079]
本稿では、GRAFFLと呼ばれる、最初の勾配のない連邦学習フレームワークを提案する。
参加する各機関から得られた暗黙の情報を用いて、パラメータの後方分布を学習する。
本稿では,GRAFFLに基づくベイズ混合モデルを提案する。
論文 参考訳(メタデータ) (2020-08-29T07:19:44Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。