論文の概要: Secure and Effective Data Appraisal for Machine Learning
- arxiv url: http://arxiv.org/abs/2310.02373v2
- Date: Thu, 5 Oct 2023 23:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:59:21.637130
- Title: Secure and Effective Data Appraisal for Machine Learning
- Title(参考訳): 機械学習のための安全かつ効果的なデータ評価
- Authors: Xu Ouyang, Changhong Yang, Felix Xiaozhu Lin, Yangfeng Ji
- Abstract要約: 本稿では,データ選択を実践する革新的な手法を提案する。
提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。
対象モデルの直接的MPCに基づく評価と比較して,本手法は,選択したデータを用いたトレーニングにおいて,数千時間から数十時間までの要時間を大幅に短縮する。
- 参考スコア(独自算出の注目度): 17.828547661524688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Essential for an unfettered data market is the ability to discreetly select
and evaluate training data before finalizing a transaction between the data
owner and model owner. To safeguard the privacy of both data and model, this
process involves scrutinizing the target model through Multi-Party Computation
(MPC). While prior research has posited that the MPC-based evaluation of
Transformer models is excessively resource-intensive, this paper introduces an
innovative approach that renders data selection practical. The contributions of
this study encompass three pivotal elements: (1) a groundbreaking pipeline for
confidential data selection using MPC, (2) replicating intricate
high-dimensional operations with simplified low-dimensional MLPs trained on a
limited subset of pertinent data, and (3) implementing MPC in a concurrent,
multi-phase manner. The proposed method is assessed across an array of
Transformer models and NLP/CV benchmarks. In comparison to the direct MPC-based
evaluation of the target model, our approach substantially reduces the time
required, from thousands of hours to mere tens of hours, with only a nominal
0.20% dip in accuracy when training with the selected data.
- Abstract(参考訳): データマーケットにとって不可欠なのは、データオーナとモデルオーナの間のトランザクションが完了する前にトレーニングデータを選択して評価する能力だ。
データとモデルの両方のプライバシを保護するため、このプロセスでは、Multi-Party Computation (MPC)を通じてターゲットモデルを精査する。
MPCを用いたTransformerモデルの評価は資源集約的だが,本研究では,データ選択を現実的に行う革新的なアプローチを提案する。
本研究の貢献は,(1) MPCを用いた秘密データ選択のためのグラウンディングパイプライン,(2) 関連するデータの限られたサブセットで訓練された簡易な低次元MLPによる複雑な高次元操作の複製,(3) MPCを同時かつ多相的に実装する3つの重要な要素を含む。
提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。
対象モデルの直接的mpcベース評価と比較すると,本手法は,選択したデータを用いたトレーニングの精度が0.20%低下しただけで,数千時間からわずか数時間という,必要な時間を大幅に削減する。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。
リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Estimating Task Completion Times for Network Rollouts using Statistical
Models within Partitioning-based Regression Methods [0.01841601464419306]
本稿では,通信ネットワークのロールアウト計画問題に対するデータと機械学習に基づく予測ソリューションを提案する。
マイルストーン完了時間の履歴データを使用することで、モデルはドメイン知識を取り入れ、ノイズを処理し、プロジェクトマネージャに解釈できる必要があります。
本稿では,各パーティションにデータ駆動統計モデルを組み込んだ分割型回帰モデルを提案する。
論文 参考訳(メタデータ) (2022-11-20T04:28:12Z) - A Marketplace for Trading AI Models based on Blockchain and Incentives
for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。
モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。
本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文 参考訳(メタデータ) (2021-12-06T08:52:42Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Scalable MIP-based Method for Learning Optimal Multivariate Decision
Trees [17.152864798265455]
1ノルムサポートベクトルマシンモデルに基づく新しいMIP定式化を提案し、分類問題に対する多変量 ODT の訓練を行う。
我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。
我々の定式化は、平均的なサンプル外テストの精度で、文献において、平均で約10%上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-06T14:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。