論文の概要: Data Appraisal Without Data Sharing
- arxiv url: http://arxiv.org/abs/2012.06430v1
- Date: Fri, 11 Dec 2020 15:45:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:55:21.793243
- Title: Data Appraisal Without Data Sharing
- Title(参考訳): データ共有のないデータ評価
- Authors: Mimee Xu, Laurens van der Maaten, Awni Hannun
- Abstract要約: セキュアなマルチパーティ計算によるデータ共有を必要としない手法を開発した。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
- 参考スコア(独自算出の注目度): 28.41079503636652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most effective approaches to improving the performance of a
machine-learning model is to acquire additional training data. To do so, a
model owner may seek to acquire relevant training data from a data owner.
Before procuring the data, the model owner needs to appraise the data. However,
the data owner generally does not want to share the data until after an
agreement is reached. The resulting Catch-22 prevents efficient data markets
from forming. To address this problem, we develop data appraisal methods that
do not require data sharing by using secure multi-party computation.
Specifically, we study methods that: (1) compute parameter gradient norms, (2)
perform model fine-tuning, and (3) compute influence functions. Our experiments
show that influence functions provide an appealing trade-off between
high-quality appraisal and required computation.
- Abstract(参考訳): 機械学習モデルのパフォーマンスを改善するための最も効果的なアプローチの1つは、追加のトレーニングデータを取得することである。
そのため、モデル所有者は、データ所有者から関連するトレーニングデータを取得することができる。
データを取得する前に、モデル所有者はデータを評価する必要がある。
しかし、データ所有者は通常、合意に達するまでデータを共有したくない。
その結果、Catch-22は効率的なデータ市場の形成を防ぐ。
この問題に対処するために,セキュアなマルチパーティ計算によるデータ共有を必要としないデータ評価手法を開発した。
具体的には,(1)パラメータ勾配ノルムの計算,(2)モデルの微調整,(3)影響関数の計算といった手法について検討する。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Mendata: A Framework to Purify Manipulated Training Data [12.406255198638064]
我々は、操作したトレーニングデータを浄化するフレームワークであるMendataを提案する。
Mendataはトレーニングインプットを乱してユーティリティを保持するが、参照データと同様に分散される。
我々は、最先端のデータ中毒やデータ追跡技術にMendataを適用して、その効果を実証する。
論文 参考訳(メタデータ) (2023-12-03T04:40:08Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Fairness-Aware Data Valuation for Supervised Learning [4.874780144224057]
本研究では,Fairness-Aware Data vauatiOn (FADO)を提案する。
FADOを不公平化前処理技術の基礎として活用する方法を示す。
提案手法は,最大40ppの公正度を,ベースラインに比べて性能が1pp以下で向上することを示す。
論文 参考訳(メタデータ) (2023-03-29T18:51:13Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Managing dataset shift by adversarial validation for credit scoring [5.560471251954645]
トレーニングデータの分布と実際に予測する必要があるデータとの矛盾は、モデルパフォーマンスの低下を引き起こす可能性がある。
本稿では,クレジットスコアリングシナリオにおけるデータセットシフト問題を軽減するための,逆検証に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-12-19T07:07:15Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - Toward Understanding the Influence of Individual Clients in Federated
Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。
em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文 参考訳(メタデータ) (2020-12-20T14:34:36Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。