論文の概要: SelectFormer: Private and Practical Data Selection for Transformers
- arxiv url: http://arxiv.org/abs/2310.02373v4
- Date: Sat, 01 Mar 2025 23:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 17:04:19.126408
- Title: SelectFormer: Private and Practical Data Selection for Transformers
- Title(参考訳): SelectFormer: トランスフォーマーのためのプライベートかつ実用的なデータ選択
- Authors: Xu Ouyang, Felix Xiaozhu Lin, Yangfeng Ji,
- Abstract要約: 本稿では,MPC(Multi-Party Computation)を用いたデータ選択の実用化について述べる。
提案手法は,MPC上での目標モデルを直接評価することにより,数千時間から数十時間までの遅延を低減し,選択したデータによるトレーニングから約0.20%の精度低下をみせる。
- 参考スコア(独自算出の注目度): 17.828547661524688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical to a free data market is $\textit{private data selection}$, i.e. the model owner selects and then appraises training data from the data owner before both parties commit to a transaction. To keep the data and model private, this process shall evaluate the target model to be trained over Multi-Party Computation (MPC). While prior work suggests that evaluating Transformer-based models over MPC is prohibitively expensive, this paper makes it practical for the purpose of data selection. Our contributions are three: (1) a new pipeline for private data selection over MPC; (2) emulating high-dimensional nonlinear operators with low-dimension MLPs, which are trained on a small sample of the data of interest; (3) scheduling MPC in a parallel, multiphase fashion. We evaluate our method on diverse Transformer models and NLP/CV benchmarks. Compared to directly evaluating the target model over MPC, our method reduces the delay from thousands of hours to tens of hours, while only seeing around 0.20% accuracy degradation from training with the selected data.
- Abstract(参考訳): フリーデータ市場にとって重要なものは$\textit{private data selection}$、すなわち、モデル所有者がデータ所有者からデータを選択して評価し、双方がトランザクションをコミットする前にデータ所有者からトレーニングデータを取得することである。
データとモデルをプライベートに保つため、このプロセスは、MPC(Multi-Party Computation)を用いてトレーニングすべきターゲットモデルを評価する。
MPC上でのトランスフォーマーモデルの評価は極めて高価であるのに対し,本論文はデータ選択のために実用的であることを示唆している。
コントリビューションは,(1)MPC上でのプライベートデータ選択のための新しいパイプライン,(2)低次元MLPを用いた高次元非線形演算子をエミュレートすること,(3)MPCを並列多相的にスケジューリングすること,の3つである。
各種トランスフォーマーモデルとNLP/CVベンチマークを用いて本手法の評価を行った。
提案手法は,MPC上での目標モデルを直接評価することにより,数千時間から数十時間までの遅延を低減し,選択したデータによるトレーニングから約0.20%の精度劣化をみせる。
関連論文リスト
- PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。
Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。
ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。
PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。
PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文 参考訳(メタデータ) (2024-10-09T17:06:57Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。
リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Cost-Effective Retraining of Machine Learning Models [2.9461360639852914]
データが時間とともに変化するにつれて、そのパフォーマンスを維持するためには、機械学習(ML)モデルを再トレーニングすることが重要です。
これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になる。
本稿では,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。
論文 参考訳(メタデータ) (2023-10-06T13:02:29Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Estimating Task Completion Times for Network Rollouts using Statistical
Models within Partitioning-based Regression Methods [0.01841601464419306]
本稿では,通信ネットワークのロールアウト計画問題に対するデータと機械学習に基づく予測ソリューションを提案する。
マイルストーン完了時間の履歴データを使用することで、モデルはドメイン知識を取り入れ、ノイズを処理し、プロジェクトマネージャに解釈できる必要があります。
本稿では,各パーティションにデータ駆動統計モデルを組み込んだ分割型回帰モデルを提案する。
論文 参考訳(メタデータ) (2022-11-20T04:28:12Z) - A Marketplace for Trading AI Models based on Blockchain and Incentives
for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。
モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。
本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文 参考訳(メタデータ) (2021-12-06T08:52:42Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Scalable MIP-based Method for Learning Optimal Multivariate Decision
Trees [17.152864798265455]
1ノルムサポートベクトルマシンモデルに基づく新しいMIP定式化を提案し、分類問題に対する多変量 ODT の訓練を行う。
我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。
我々の定式化は、平均的なサンプル外テストの精度で、文献において、平均で約10%上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-06T14:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。