論文の概要: MYCROFT: Towards Effective and Efficient External Data Augmentation
- arxiv url: http://arxiv.org/abs/2410.08432v1
- Date: Fri, 11 Oct 2024 00:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:26:42.302923
- Title: MYCROFT: Towards Effective and Efficient External Data Augmentation
- Title(参考訳): MYCROFT: 効果的かつ効率的な外部データ拡張を目指して
- Authors: Zain Sarwar, Van Tran, Arjun Nitin Bhagoji, Nick Feamster, Ben Y. Zhao, Supriyo Chakraborty,
- Abstract要約: Mycroftは、制約付きデータ共有予算で作業しながら、モデルトレーナーが異なるデータソースの相対的有用性を評価できるようにする方法である。
Mycroftは、所有者ごとに小さなが情報的なデータサブセットを特定し、モデルトレーナーは最小限のデータ露出でパフォーマンスを最大化できる。
- 参考スコア(独自算出の注目度): 22.104821070289322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning (ML) models often require large amounts of data to perform well. When the available data is limited, model trainers may need to acquire more data from external sources. Often, useful data is held by private entities who are hesitant to share their data due to propriety and privacy concerns. This makes it challenging and expensive for model trainers to acquire the data they need to improve model performance. To address this challenge, we propose Mycroft, a data-efficient method that enables model trainers to evaluate the relative utility of different data sources while working with a constrained data-sharing budget. By leveraging feature space distances and gradient matching, Mycroft identifies small but informative data subsets from each owner, allowing model trainers to maximize performance with minimal data exposure. Experimental results across four tasks in two domains show that Mycroft converges rapidly to the performance of the full-information baseline, where all data is shared. Moreover, Mycroft is robust to noise and can effectively rank data owners by utility. Mycroft can pave the way for democratized training of high performance ML models.
- Abstract(参考訳): 機械学習(ML)モデルは、よく機能するために大量のデータを必要とすることが多い。
利用可能なデータが限られている場合、モデルトレーナーは外部ソースからより多くのデータを取得する必要がある。
多くの場合、有用なデータは、プライバシーやプライバシーの懸念から、自分のデータを共有することをためらうプライベートなエンティティによって保持される。
これにより、モデルトレーナーは、モデルパフォーマンスを改善するために必要なデータを取得するのが難しく、コストがかかる。
この課題に対処するために、制約付きデータ共有予算で作業しながら、モデルトレーナーが異なるデータソースの相対的有用性を評価することのできる、データ効率のよい方法であるMycroftを提案する。
特徴空間距離と勾配マッチングを活用することで、Mycroftは各所有者の小さなが情報に富むデータサブセットを特定し、モデルトレーナーは最小限のデータ露出でパフォーマンスを最大化することができる。
2つの領域における4つのタスクにまたがる実験結果から、Mycroftはすべてのデータが共有される全情報ベースラインのパフォーマンスに急速に収束することが示された。
さらに、Mycroftはノイズに対して堅牢であり、ユーティリティによってデータ所有者を効果的にランク付けすることができる。
Mycroftは、高性能MLモデルの民主化トレーニングの道を開くことができる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - Data Excellence for AI: Why Should You Care [9.421161233914251]
ベンチマークデータセットは、モデルが存在し、運用される世界全体を定義する。
もし「データが新しい石油である」ならば、データ自体がより効率的な使用のために最適化されるような精製工場の作業は依然として欠落しています。
論文 参考訳(メタデータ) (2021-11-19T19:06:03Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - CHEER: Rich Model Helps Poor Model via Knowledge Infusion [69.23072792708263]
我々は、そのようなリッチなモデルを伝達可能な表現に簡潔に要約できる知識注入フレームワークCHEERを開発した。
実験の結果、CHEERは複数の生理的データセットのマクロF1スコアにおいて、ベースラインを5.60%から46.80%上回った。
論文 参考訳(メタデータ) (2020-05-21T21:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。