論文の概要: Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources
- arxiv url: http://arxiv.org/abs/2307.02460v1
- Date: Wed, 5 Jul 2023 17:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:47:06.087828
- Title: Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources
- Title(参考訳): 最適トランスポートによるパフォーマンススケーリング: 部分的に露呈したソースからのデータ選択を可能にする
- Authors: Feiyang Kang, Hoang Anh Just, Anit Kumar Sahu, Ruoxi Jia
- Abstract要約: 本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
- 参考スコア(独自算出の注目度): 9.359395812292291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, data selection has been studied in settings where all samples
from prospective sources are fully revealed to a machine learning developer.
However, in practical data exchange scenarios, data providers often reveal only
a limited subset of samples before an acquisition decision is made. Recently,
there have been efforts to fit scaling laws that predict model performance at
any size and data source composition using the limited available samples.
However, these scaling functions are black-box, computationally expensive to
fit, highly susceptible to overfitting, or/and difficult to optimize for data
selection. This paper proposes a framework called <projektor>, which predicts
model performance and supports data selection decisions based on partial
samples of prospective data sources. Our approach distinguishes itself from
existing work by introducing a novel *two-stage* performance inference process.
In the first stage, we leverage the Optimal Transport distance to predict the
model's performance for any data mixture ratio within the range of disclosed
data sizes. In the second stage, we extrapolate the performance to larger
undisclosed data sizes based on a novel parameter-free mapping technique
inspired by neural scaling laws. We further derive an efficient gradient-based
method to select data sources based on the projected model performance.
Evaluation over a diverse range of applications demonstrates that <projektor>
significantly improves existing performance scaling approaches in terms of both
the accuracy of performance inference and the computation costs associated with
constructing the performance predictor. Also, <projektor> outperforms by a wide
margin in data selection effectiveness compared to a range of other
off-the-shelf solutions.
- Abstract(参考訳): 従来、データ選択は、将来的なソースからのすべてのサンプルがマシンラーニング開発者に対して完全に公開される設定で研究されてきた。
しかし、実際のデータ交換シナリオでは、データプロバイダは、取得決定が行われる前にサンプルの限られたサブセットのみを開示することが多い。
近年,任意のサイズでモデル性能を予測するスケーリング法則と,利用可能な限られたサンプルを用いたデータソース構成の適合化が試みられている。
しかし、これらのスケーリング関数はブラックボックスであり、計算コストが高く、過剰フィッティングの影響を受けやすく、データ選択の最適化が困難である。
本稿では,モデル性能を予測し,データソースの部分的なサンプルに基づくデータ選択決定を支援する<projektor>というフレームワークを提案する。
私たちのアプローチは、新しい*2段階*パフォーマンス推論プロセスを導入することで、既存の作業と区別します。
第1段階では、最適輸送距離を利用して、開示されたデータサイズの範囲内の任意のデータ混合比に対するモデルの性能を予測する。
第2段階では、ニューラルスケーリングの法則に触発された新しいパラメータフリーマッピング技術に基づいて、パフォーマンスをより大きな非開示データサイズに推定する。
さらに、予測モデルの性能に基づいてデータソースを選択するための効率的な勾配法を導出する。
多様なアプリケーションに対する評価は,<projektor>が性能予測器の構築に伴う性能推定の精度と計算コストの両方の観点から,既存の性能スケーリングアプローチを大幅に改善することを示す。
また,<projektor>は,他の市販ソリューションと比較して,データ選択効率の幅広いマージンで優れていた。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Prototypical Fine-tuning: Towards Robust Performance Under Varying Data
Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。
提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文 参考訳(メタデータ) (2022-11-24T14:38:08Z) - Differentiable Neural Input Search for Recommender Systems [26.88124270897381]
Differentiable Neural Input Search (DNIS) は、より柔軟な空間における混合特徴埋め込み次元を探索する手法である。
DNISはモデルに依存しないため、既存の潜在因子モデルとシームレスに統合して推奨することができる。
論文 参考訳(メタデータ) (2020-06-08T10:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。