論文の概要: SelectFormer: Private and Practical Data Selection for Transformers
- arxiv url: http://arxiv.org/abs/2310.02373v4
- Date: Sat, 01 Mar 2025 23:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:10:08.210764
- Title: SelectFormer: Private and Practical Data Selection for Transformers
- Title(参考訳): SelectFormer: トランスフォーマーのためのプライベートかつ実用的なデータ選択
- Authors: Xu Ouyang, Felix Xiaozhu Lin, Yangfeng Ji,
- Abstract要約: 本稿では,MPC(Multi-Party Computation)を用いたデータ選択の実用化について述べる。
提案手法は,MPC上での目標モデルを直接評価することにより,数千時間から数十時間までの遅延を低減し,選択したデータによるトレーニングから約0.20%の精度低下をみせる。
- 参考スコア(独自算出の注目度): 17.828547661524688
- License:
- Abstract: Critical to a free data market is $\textit{private data selection}$, i.e. the model owner selects and then appraises training data from the data owner before both parties commit to a transaction. To keep the data and model private, this process shall evaluate the target model to be trained over Multi-Party Computation (MPC). While prior work suggests that evaluating Transformer-based models over MPC is prohibitively expensive, this paper makes it practical for the purpose of data selection. Our contributions are three: (1) a new pipeline for private data selection over MPC; (2) emulating high-dimensional nonlinear operators with low-dimension MLPs, which are trained on a small sample of the data of interest; (3) scheduling MPC in a parallel, multiphase fashion. We evaluate our method on diverse Transformer models and NLP/CV benchmarks. Compared to directly evaluating the target model over MPC, our method reduces the delay from thousands of hours to tens of hours, while only seeing around 0.20% accuracy degradation from training with the selected data.
- Abstract(参考訳): フリーデータ市場にとって重要なものは$\textit{private data selection}$、すなわち、モデル所有者がデータ所有者からデータを選択して評価し、双方がトランザクションをコミットする前にデータ所有者からトレーニングデータを取得することである。
データとモデルをプライベートに保つため、このプロセスは、MPC(Multi-Party Computation)を用いてトレーニングすべきターゲットモデルを評価する。
MPC上でのトランスフォーマーモデルの評価は極めて高価であるのに対し,本論文はデータ選択のために実用的であることを示唆している。
コントリビューションは,(1)MPC上でのプライベートデータ選択のための新しいパイプライン,(2)低次元MLPを用いた高次元非線形演算子をエミュレートすること,(3)MPCを並列多相的にスケジューリングすること,の3つである。
各種トランスフォーマーモデルとNLP/CVベンチマークを用いて本手法の評価を行った。
提案手法は,MPC上での目標モデルを直接評価することにより,数千時間から数十時間までの遅延を低減し,選択したデータによるトレーニングから約0.20%の精度劣化をみせる。
関連論文リスト
- PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。
Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。
ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Evaluating Sample Utility for Data Selection by Mimicking Model Weights [12.056542160711718]
ファンデーションモデルは、しばしばノイズ、バイアス、無関係な情報を含む大規模なWebcrawledデータセットに基づいてトレーニングされている。
我々は,新しいデータ品質指標であるMimic Scoreを用いて,効率的なモデルベースアプローチを提案する。
学習のためのサンプルを優先し,効率的なフィルタを作成し,データ選択を自動化するフレームワークであるGrad-Mimicを開発した。
論文 参考訳(メタデータ) (2025-01-12T04:28:14Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Estimating Task Completion Times for Network Rollouts using Statistical
Models within Partitioning-based Regression Methods [0.01841601464419306]
本稿では,通信ネットワークのロールアウト計画問題に対するデータと機械学習に基づく予測ソリューションを提案する。
マイルストーン完了時間の履歴データを使用することで、モデルはドメイン知識を取り入れ、ノイズを処理し、プロジェクトマネージャに解釈できる必要があります。
本稿では,各パーティションにデータ駆動統計モデルを組み込んだ分割型回帰モデルを提案する。
論文 参考訳(メタデータ) (2022-11-20T04:28:12Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Scalable MIP-based Method for Learning Optimal Multivariate Decision
Trees [17.152864798265455]
1ノルムサポートベクトルマシンモデルに基づく新しいMIP定式化を提案し、分類問題に対する多変量 ODT の訓練を行う。
我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。
我々の定式化は、平均的なサンプル外テストの精度で、文献において、平均で約10%上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-06T14:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。