Fugu-MT 論文翻訳(概要): Secure and Effective Data Appraisal for Machine Learning

論文の概要: Secure and Effective Data Appraisal for Machine Learning

arxiv url: http://arxiv.org/abs/2310.02373v3
Date: Wed, 24 Jan 2024 22:02:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-26 17:49:38.122168
Title: Secure and Effective Data Appraisal for Machine Learning
Title（参考訳）: 機械学習のための安全かつ効果的なデータ評価
Authors: Xu Ouyang, Changhong Yang, Felix Xiaozhu Lin, Yangfeng Ji
Abstract要約: 本稿では,データ選択を実践する革新的な手法を提案する。提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。対象モデルの直接的MPCに基づく評価と比較して,本手法は,選択したデータを用いたトレーニングにおいて,数千時間から数十時間までの要時間を大幅に短縮する。
参考スコア（独自算出の注目度）: 17.828547661524688
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Essential for an unfettered data market is the ability to discreetly select and evaluate training data before finalizing a transaction between the data owner and model owner. To safeguard the privacy of both data and model, this process involves scrutinizing the target model through Multi-Party Computation (MPC). While prior research has posited that the MPC-based evaluation of Transformer models is excessively resource-intensive, this paper introduces an innovative approach that renders data selection practical. The contributions of this study encompass three pivotal elements: (1) a groundbreaking pipeline for confidential data selection using MPC, (2) replicating intricate high-dimensional operations with simplified low-dimensional MLPs trained on a limited subset of pertinent data, and (3) implementing MPC in a concurrent, multi-phase manner. The proposed method is assessed across an array of Transformer models and NLP/CV benchmarks. In comparison to the direct MPC-based evaluation of the target model, our approach substantially reduces the time required, from thousands of hours to mere tens of hours, with only a nominal 0.20% dip in accuracy when training with the selected data.
Abstract（参考訳）: データマーケットにとって不可欠なのは、データオーナとモデルオーナの間のトランザクションが完了する前にトレーニングデータを選択して評価する能力だ。データとモデルの両方のプライバシを保護するため、このプロセスでは、Multi-Party Computation (MPC)を通じてターゲットモデルを精査する。 MPCを用いたTransformerモデルの評価は資源集約的だが,本研究では,データ選択を現実的に行う革新的なアプローチを提案する。本研究の貢献は,(1) MPCを用いた秘密データ選択のためのグラウンディングパイプライン,(2) 関連するデータの限られたサブセットで訓練された簡易な低次元MLPによる複雑な高次元操作の複製,(3) MPCを同時かつ多相的に実装する3つの重要な要素を含む。提案手法はトランスフォーマーモデルとNLP/CVベンチマークを用いて評価する。対象モデルの直接的mpcベース評価と比較すると,本手法は,選択したデータを用いたトレーニングの精度が0.20%低下しただけで,数千時間からわずか数時間という,必要な時間を大幅に削減する。

関連論文リスト

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [28.442470930703337]
PRISMは、効率的なマルチモーダルデータ選択のためのトレーニング不要のアプローチである。 Pearson相関解析を用いて、MLLMの固有視覚符号化特性の定量化を行う。ビジュアルインストラクションのチューニングとデータ選択に要する時間を従来の手法の30%に短縮する。
論文参考訳（メタデータ） (2025-02-17T18:43:41Z)
Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data [19.221998577357713]
大規模言語モデル(LLM)は一般に事前学習プロセスを通して一貫したデータ分布を利用する。モデルの性能が向上するにつれて、データ嗜好が動的に変化するのは直感的であり、様々なトレーニング段階で異なるデータで事前トレーニングする必要があることを示している。我々は、常にLLMが好むデータを認識し、活用し、それらをトレーニングし、強化するパープレキシティ・ディファレンス(PD)ベースのPreference Curriculum Learningフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-21T13:12:13Z)
Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights [11.237906163959908]
マルチモーダルモデルは、大規模なWebcrawledデータセットでトレーニングされる。これらのデータセットは、しばしばノイズ、バイアス、無関係な情報を含む。 Mimic Score を用いた効率的なモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2025-01-12T04:28:14Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文参考訳（メタデータ） (2024-10-21T17:11:21Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Data Selection via Optimal Control for Language Models [134.67665351539725]
本研究は,大規模コーパスから高品質な事前学習データを選択することにより,下流利用におけるLMの能力を向上させることを目的とする。 PMP条件を解くことで最適なデータ選択を近似するフレームワークであるPMPベースのデータ選択(PDS)を導入する。 PDSの利点は、スケーリング法則に従ってテスト損失曲線の外挿によって証明されたように、10Tトークンでトレーニングされた400Bモデルにまで拡張される。
論文参考訳（メタデータ） (2024-10-09T17:06:57Z)
CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
本稿では,モデル学習におけるモデル精度に基づく各データサブセットの有用性を近似したCHG Shapleyを提案する。リアルタイムデータ選択にはCHG Shapleyを用い,その有効性を示す。
論文参考訳（メタデータ） (2024-06-17T16:48:31Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Cost-Effective Retraining of Machine Learning Models [2.9461360639852914]
データが時間とともに変化するにつれて、そのパフォーマンスを維持するためには、機械学習(ML)モデルを再トレーニングすることが重要です。これにより、再トレーニングの頻度が高過ぎると、不要な計算コストが発生し、再トレーニングが不十分になる。本稿では,MLモデルをいつ再トレーニングするかを自動かつ費用対効果で決定するMLシステムを提案する。
論文参考訳（メタデータ） (2023-10-06T13:02:29Z)
MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文参考訳（メタデータ） (2023-01-30T20:59:30Z)
Estimating Task Completion Times for Network Rollouts using Statistical Models within Partitioning-based Regression Methods [0.01841601464419306]
本稿では,通信ネットワークのロールアウト計画問題に対するデータと機械学習に基づく予測ソリューションを提案する。マイルストーン完了時間の履歴データを使用することで、モデルはドメイン知識を取り入れ、ノイズを処理し、プロジェクトマネージャに解釈できる必要があります。本稿では,各パーティションにデータ駆動統計モデルを組み込んだ分割型回帰モデルを提案する。
論文参考訳（メタデータ） (2022-11-20T04:28:12Z)
A Marketplace for Trading AI Models based on Blockchain and Incentives for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文参考訳（メタデータ） (2021-12-06T08:52:42Z)
On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文参考訳（メタデータ） (2021-11-16T15:24:59Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
A Scalable MIP-based Method for Learning Optimal Multivariate Decision Trees [17.152864798265455]
1ノルムサポートベクトルマシンモデルに基づく新しいMIP定式化を提案し、分類問題に対する多変量 ODT の訓練を行う。我々は, MIP定式化の線形緩和を緩和する切削面技術を提供し, 実行時間の改善と最適性を実現する。我々の定式化は、平均的なサンプル外テストの精度で、文献において、平均で約10%上回っていることを実証する。
論文参考訳（メタデータ） (2020-11-06T14:17:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。