Fugu-MT 論文翻訳(概要): Data Provenance Inference in Machine Learning

論文の概要: Data Provenance Inference in Machine Learning

arxiv url: http://arxiv.org/abs/2211.13416v1
Date: Thu, 24 Nov 2022 04:48:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 18:40:34.435265
Title: Data Provenance Inference in Machine Learning
Title（参考訳）: 機械学習におけるデータプロヴァンス推論
Authors: Mingxue Xu, Xiang-Yang Li
Abstract要約: 本稿では,MLトレーニングデータの生成,収集,処理特性を推定するデータ前処理法を提案する。 MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。著者」がデータ証明である場合、最も正確な推測精度はホワイトボックスのテキストモデルで98.96%に達する。
参考スコア（独自算出の注目度）: 11.757761200814027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unintended memorization of various information granularity has garnered academic attention in recent years, e.g. membership inference and property inference. How to inversely use this privacy leakage to facilitate real-world applications is a growing direction; the current efforts include dataset ownership inference and user auditing. Standing on the data lifecycle and ML model production, we propose an inference process named Data Provenance Inference, which is to infer the generation, collection or processing property of the ML training data, to assist ML developers in locating the training data gaps without maintaining strenuous metadata. We formularly define the data provenance and the data provenance inference task in ML training. Then we propose a novel inference strategy combining embedded-space multiple instance classification and shadow learning. Comprehensive evaluations cover language, visual and structured data in black-box and white-box settings, with diverse kinds of data provenance (i.e. business, county, movie, user). Our best inference accuracy achieves 98.96% in the white-box text model when "author" is the data provenance. The experimental results indicate that, in general, the inference performance positively correlated with the amount of reference data for inference, the depth and also the amount of the parameter of the accessed layer. Furthermore, we give a post-hoc statistical analysis of the data provenance definition to explain when our proposed method works well.
Abstract（参考訳）: 様々な情報の意図しない記憶は、近年、メンバーシップ推論やプロパティ推論など、学術的な注目を集めている。現在の取り組みには、データセットのオーナシップの推測とユーザ監査が含まれる。データライフサイクルとMLモデル生産を基盤として,MLトレーニングデータの生成,収集,処理特性を推測するデータプロバンス推論という推論プロセスを提案し,厳格なメタデータを維持することなく,トレーニングデータギャップの配置を支援する。 MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。次に,組込み空間の多重インスタンス分類と影学習を組み合わせた新しい推論手法を提案する。包括的な評価は、さまざまな種類のデータ(ビジネス、郡、映画、ユーザー)を持つ、ブラックボックスとホワイトボックスの設定で言語、ビジュアル、構造化されたデータをカバーする。著者」がデータ証明である場合、最も正確な推測精度はホワイトボックステキストモデルで98.96%に達する。実験の結果, 一般に, 推定性能は, 推定のための参照データ量, 深さ, およびアクセス層のパラメータ量と正の相関を示した。さらに,提案手法がうまく機能するかを説明するために,データプロヴァンス定義のポストホックな統計解析を行う。

関連論文リスト

Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文参考訳（メタデータ） (2025-02-06T18:51:28Z)
Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文参考訳（メタデータ） (2024-10-16T23:05:59Z)
In-Context Probing Approximates Influence Function for Data Valuation [16.404477234171733]
そこで本研究では,文脈内探索によるデータ評価が,学習データ選択に影響を及ぼすことを示す。実験結果から, 文脈内探索と勾配に基づく影響フレームワークは, トレーニングデータのランク付け方法に類似していることがわかった。
論文参考訳（メタデータ） (2024-07-17T02:06:56Z)
Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文参考訳（メタデータ） (2023-10-20T05:44:39Z)
Leave-one-out Distinguishability in Machine Learning [23.475469946428717]
本稿では、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めると定量化する分析フレームワークを提案する。これは、データ**記憶*と情報*記憶*と、機械学習におけるデータポイントのトレーニング**影響*とを測る鍵となります。
論文参考訳（メタデータ） (2023-09-29T15:08:28Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Federated Estimation of Causal Effects from Observational Data [19.657789891394504]
フェデレートされたデータソースを用いた因果推論のための新しいフレームワークを提案する。我々は、異なるプライベートデータソースからの局所因果効果を中央集権化せずに評価し、統合する。
論文参考訳（メタデータ） (2021-05-31T08:06:00Z)
Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文参考訳（メタデータ） (2020-09-01T15:08:23Z)
Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文参考訳（メタデータ） (2020-07-07T04:17:01Z)
Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文参考訳（メタデータ） (2020-07-06T15:12:05Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。