Fugu-MT 論文翻訳(概要): Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

論文の概要: Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources

arxiv url: http://arxiv.org/abs/2307.02460v1
Date: Wed, 5 Jul 2023 17:33:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 12:47:06.087828
Title: Performance Scaling via Optimal Transport: Enabling Data Selection from Partially Revealed Sources
Title（参考訳）: 最適トランスポートによるパフォーマンススケーリング: 部分的に露呈したソースからのデータ選択を可能にする
Authors: Feiyang Kang, Hoang Anh Just, Anit Kumar Sahu, Ruoxi Jia
Abstract要約: 本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。 or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。また,他の市販ソリューションと比較して,データ選択効率の差は広い。
参考スコア（独自算出の注目度）: 9.359395812292291
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditionally, data selection has been studied in settings where all samples from prospective sources are fully revealed to a machine learning developer. However, in practical data exchange scenarios, data providers often reveal only a limited subset of samples before an acquisition decision is made. Recently, there have been efforts to fit scaling laws that predict model performance at any size and data source composition using the limited available samples. However, these scaling functions are black-box, computationally expensive to fit, highly susceptible to overfitting, or/and difficult to optimize for data selection. This paper proposes a framework called <projektor>, which predicts model performance and supports data selection decisions based on partial samples of prospective data sources. Our approach distinguishes itself from existing work by introducing a novel *two-stage* performance inference process. In the first stage, we leverage the Optimal Transport distance to predict the model's performance for any data mixture ratio within the range of disclosed data sizes. In the second stage, we extrapolate the performance to larger undisclosed data sizes based on a novel parameter-free mapping technique inspired by neural scaling laws. We further derive an efficient gradient-based method to select data sources based on the projected model performance. Evaluation over a diverse range of applications demonstrates that <projektor> significantly improves existing performance scaling approaches in terms of both the accuracy of performance inference and the computation costs associated with constructing the performance predictor. Also, <projektor> outperforms by a wide margin in data selection effectiveness compared to a range of other off-the-shelf solutions.
Abstract（参考訳）: 従来、データ選択は、将来的なソースからのすべてのサンプルがマシンラーニング開発者に対して完全に公開される設定で研究されてきた。しかし、実際のデータ交換シナリオでは、データプロバイダは、取得決定が行われる前にサンプルの限られたサブセットのみを開示することが多い。近年,任意のサイズでモデル性能を予測するスケーリング法則と,利用可能な限られたサンプルを用いたデータソース構成の適合化が試みられている。しかし、これらのスケーリング関数はブラックボックスであり、計算コストが高く、過剰フィッティングの影響を受けやすく、データ選択の最適化が困難である。本稿では,モデル性能を予測し,データソースの部分的なサンプルに基づくデータ選択決定を支援する<projektor>というフレームワークを提案する。私たちのアプローチは、新しい*2段階*パフォーマンス推論プロセスを導入することで、既存の作業と区別します。第1段階では、最適輸送距離を利用して、開示されたデータサイズの範囲内の任意のデータ混合比に対するモデルの性能を予測する。第2段階では、ニューラルスケーリングの法則に触発された新しいパラメータフリーマッピング技術に基づいて、パフォーマンスをより大きな非開示データサイズに推定する。さらに、予測モデルの性能に基づいてデータソースを選択するための効率的な勾配法を導出する。多様なアプリケーションに対する評価は,<projektor>が性能予測器の構築に伴う性能推定の精度と計算コストの両方の観点から,既存の性能スケーリングアプローチを大幅に改善することを示す。また,<projektor>は,他の市販ソリューションと比較して,データ選択効率の幅広いマージンで優れていた。

関連論文リスト

Using Scaling Laws for Data Source Utility Estimation in Domain-Specific Pre-Training [4.90288999217624]
基礎モデルトレーニングにおいて,ドメイン固有のデータセット構築を最適化するためのフレームワークを提案する。我々のアプローチは、スケーリング法則を推定するために、通常の点推定アプローチ、いわゆるマイクロアニール(micro-annealing)を拡張します。我々は、70億のパラメータを持つ事前学習モデルの実験を通して、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-07-29T21:56:45Z)
Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-25T09:08:00Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文参考訳（メタデータ） (2024-09-23T04:52:17Z)
Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文参考訳（メタデータ） (2024-08-05T03:18:58Z)
Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文参考訳（メタデータ） (2024-05-05T00:08:00Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Prototypical Fine-tuning: Towards Robust Performance Under Varying Data Sizes [47.880781811936345]
我々は、微調整事前学習言語モデル(LM)のための新しいフレームワークを提案する。提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。
論文参考訳（メタデータ） (2022-11-24T14:38:08Z)
Differentiable Neural Input Search for Recommender Systems [26.88124270897381]
Differentiable Neural Input Search (DNIS) は、より柔軟な空間における混合特徴埋め込み次元を探索する手法である。 DNISはモデルに依存しないため、既存の潜在因子モデルとシームレスに統合して推奨することができる。
論文参考訳（メタデータ） (2020-06-08T10:43:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。