論文の概要: Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources
- arxiv url: http://arxiv.org/abs/2307.02460v1
- Date: Wed, 5 Jul 2023 17:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:47:06.087828
- Title: Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources
- Title(参考訳): 最適トランスポートによるパフォーマンススケーリング: 部分的に露呈したソースからのデータ選択を可能にする
- Authors: Feiyang Kang, Hoang Anh Just, Anit Kumar Sahu, Ruoxi Jia
- Abstract要約: 本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
- 参考スコア(独自算出の注目度): 9.359395812292291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, data selection has been studied in settings where all samples
from prospective sources are fully revealed to a machine learning developer.
However, in practical data exchange scenarios, data providers often reveal only
a limited subset of samples before an acquisition decision is made. Recently,
there have been efforts to fit scaling laws that predict model performance at
any size and data source composition using the limited available samples.
However, these scaling functions are black-box, computationally expensive to
fit, highly susceptible to overfitting, or/and difficult to optimize for data
selection. This paper proposes a framework called <projektor>, which predicts
model performance and supports data selection decisions based on partial
samples of prospective data sources. Our approach distinguishes itself from
existing work by introducing a novel *two-stage* performance inference process.
In the first stage, we leverage the Optimal Transport distance to predict the
model's performance for any data mixture ratio within the range of disclosed
data sizes. In the second stage, we extrapolate the performance to larger
undisclosed data sizes based on a novel parameter-free mapping technique
inspired by neural scaling laws. We further derive an efficient gradient-based
method to select data sources based on the projected model performance.
Evaluation over a diverse range of applications demonstrates that <projektor>
significantly improves existing performance scaling approaches in terms of both
the accuracy of performance inference and the computation costs associated with
constructing the performance predictor. Also, <projektor> outperforms by a wide
margin in data selection effectiveness compared to a range of other
off-the-shelf solutions.
- Abstract(参考訳): 従来、データ選択は、将来的なソースからのすべてのサンプルがマシンラーニング開発者に対して完全に公開される設定で研究されてきた。
しかし、実際のデータ交換シナリオでは、データプロバイダは、取得決定が行われる前にサンプルの限られたサブセットのみを開示することが多い。
近年,任意のサイズでモデル性能を予測するスケーリング法則と,利用可能な限られたサンプルを用いたデータソース構成の適合化が試みられている。
しかし、これらのスケーリング関数はブラックボックスであり、計算コストが高く、過剰フィッティングの影響を受けやすく、データ選択の最適化が困難である。
本稿では,モデル性能を予測し,データソースの部分的なサンプルに基づくデータ選択決定を支援する<projektor>というフレームワークを提案する。
私たちのアプローチは、新しい*2段階*パフォーマンス推論プロセスを導入することで、既存の作業と区別します。
第1段階では、最適輸送距離を利用して、開示されたデータサイズの範囲内の任意のデータ混合比に対するモデルの性能を予測する。
第2段階では、ニューラルスケーリングの法則に触発された新しいパラメータフリーマッピング技術に基づいて、パフォーマンスをより大きな非開示データサイズに推定する。
さらに、予測モデルの性能に基づいてデータソースを選択するための効率的な勾配法を導出する。
多様なアプリケーションに対する評価は,<projektor>が性能予測器の構築に伴う性能推定の精度と計算コストの両方の観点から,既存の性能スケーリングアプローチを大幅に改善することを示す。
また,<projektor>は,他の市販ソリューションと比較して,データ選択効率の幅広いマージンで優れていた。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Predicting Software Performance with Divide-and-Learn [3.635696352780227]
本稿では,DALと呼ばれる「分枝学習」の概念に基づくアプローチを提案する。
実世界の8つのシステムと5つのトレーニングデータによる実験結果から、DaLは40件中33件で最高のシステムよりもパフォーマンスが劣っていることが判明した。
論文 参考訳(メタデータ) (2023-06-11T11:16:27Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - Differentiable Neural Input Search for Recommender Systems [26.88124270897381]
Differentiable Neural Input Search (DNIS) は、より柔軟な空間における混合特徴埋め込み次元を探索する手法である。
DNISはモデルに依存しないため、既存の潜在因子モデルとシームレスに統合して推奨することができる。
論文 参考訳(メタデータ) (2020-06-08T10:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。