論文の概要: Have you forgotten? A method to assess if machine learning models have
forgotten data
- arxiv url: http://arxiv.org/abs/2004.10129v2
- Date: Sun, 12 Jul 2020 12:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-11 07:15:52.310089
- Title: Have you forgotten? A method to assess if machine learning models have
forgotten data
- Title(参考訳): 忘れましたか。
機械学習モデルがデータを忘れたかどうかを評価する方法
- Authors: Xiao Liu, Sotirios A Tsaftaris
- Abstract要約: ディープラーニングの時代において、複数のソースからのデータの集約は、データの多様性を保証するための一般的なアプローチである。
本稿では、モデルによってデータが忘れられたかどうかという課題に対処する。
我々は、ターゲットの出力と異なるデータセットで訓練されたモデルの出力を比較する統計的手法を確立する。
- 参考スコア(独自算出の注目度): 20.9131206112401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of deep learning, aggregation of data from several sources is a
common approach to ensuring data diversity. Let us consider a scenario where
several providers contribute data to a consortium for the joint development of
a classification model (hereafter the target model), but, now one of the
providers decides to leave. This provider requests that their data (hereafter
the query dataset) be removed from the databases but also that the model
`forgets' their data. In this paper, for the first time, we want to address the
challenging question of whether data have been forgotten by a model. We assume
knowledge of the query dataset and the distribution of a model's output. We
establish statistical methods that compare the target's outputs with outputs of
models trained with different datasets. We evaluate our approach on several
benchmark datasets (MNIST, CIFAR-10 and SVHN) and on a cardiac pathology
diagnosis task using data from the Automated Cardiac Diagnosis Challenge
(ACDC). We hope to encourage studies on what information a model retains and
inspire extensions in more complex settings.
- Abstract(参考訳): ディープラーニングの時代において、複数のソースからのデータ集約は、データの多様性を確保するための一般的なアプローチである。
いくつかのプロバイダが分類モデルの共同開発のためのコンソーシアム(以下、対象モデルの後)にデータをコンソーシアムにコンソーシアムで貢献するシナリオを考えてみましょう。
このプロバイダは、データベースからデータ(以下、クエリデータセットの後)を取り除くように要求すると同時に、モデルがデータを“忘れる”ように要求する。
本稿では,モデルによってデータが忘れられたかどうかという問題に,初めて対処したい。
クエリデータセットの知識とモデルの出力の分布を仮定する。
ターゲットの出力と異なるデータセットでトレーニングされたモデルの出力を比較する統計的手法を確立する。
我々は,いくつかのベンチマークデータセット(MNIST, CIFAR-10, SVHN)と心臓病理診断タスクについて,ACDC(Automated Cardiac Diagnosis Challenge)のデータを用いて検討した。
私たちは、モデルが保持する情報の研究を奨励し、より複雑な設定で拡張を刺激したいと考えています。
関連論文リスト
- Federated Data Model [16.62770246342126]
人工知能(AI)、特にディープラーニングでは、データ多様性とボリュームがモデル開発において重要な役割を果たす。
我々はFDM(Federated Data Model)と呼ばれる手法を開発し、様々な場所で堅牢なディープラーニングモデルを訓練した。
その結果,本手法でトレーニングしたモデルは,当初トレーニングしたデータと,他のサイトのデータの両方で良好に動作することがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:16:54Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Data Distillation: A Survey [32.718297871027865]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。
個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。
データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文 参考訳(メタデータ) (2023-01-11T02:25:10Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Application of Federated Learning in Building a Robust COVID-19 Chest
X-ray Classification Model [0.0]
フェデレートラーニング(FL)は、すべてのデータを中央サーバに移動させることなく、AIモデルの一般化を支援する。
我々は、新型コロナウイルスの有無を予測するバイナリ分類問題を解決するために、ディープラーニングモデルを訓練した。
論文 参考訳(メタデータ) (2022-04-22T05:21:50Z) - A Unified Deep Model of Learning from both Data and Queries for
Cardinality Estimation [28.570086492742035]
本稿では,データと問合せ作業負荷の両方から共同データ分布を学習する統合された深部自己回帰モデルUAEを提案する。
UAEは1桁の乗算誤差を尾で達成し、最先端の手法よりも精度が良く、空間も時間も効率的である。
論文 参考訳(メタデータ) (2021-07-26T16:09:58Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。