論文の概要: Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws
- arxiv url: http://arxiv.org/abs/2410.11820v1
- Date: Tue, 15 Oct 2024 17:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:01:25.006219
- Title: Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws
- Title(参考訳): 適応データ最適化:スケーリング法則による動的サンプル選択
- Authors: Yiding Jiang, Allan Zhou, Zhili Feng, Sadhika Malladi, J. Zico Kolter,
- Abstract要約: 本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
- 参考スコア(独自算出の注目度): 59.03420759554073
- License:
- Abstract: The composition of pretraining data is a key determinant of foundation models' performance, but there is no standard guideline for allocating a limited computational budget across different data sources. Most current approaches either rely on extensive experiments with smaller models or dynamic data adjustments that also require proxy models, both of which significantly increase the workflow complexity and computational overhead. In this paper, we introduce Adaptive Data Optimization (ADO), an algorithm that optimizes data distributions in an online fashion, concurrent with model training. Unlike existing techniques, ADO does not require external knowledge, proxy models, or modifications to the model update. Instead, ADO uses per-domain scaling laws to estimate the learning potential of each domain during training and adjusts the data mixture accordingly, making it more scalable and easier to integrate. Experiments demonstrate that ADO can achieve comparable or better performance than prior methods while maintaining computational efficiency across different computation scales, offering a practical solution for dynamically adjusting data distribution without sacrificing flexibility or increasing costs. Beyond its practical benefits, ADO also provides a new perspective on data collection strategies via scaling laws.
- Abstract(参考訳): 事前学習データの構成は基礎モデルの性能を決定づける重要な要素であるが、異なるデータソース間で限られた計算予算を割り当てるための標準ガイドラインは存在しない。
現在のアプローチのほとんどは、より小さなモデルによる広範な実験や、プロキシモデルを必要とする動的データ調整に依存しており、どちらもワークフローの複雑さと計算オーバーヘッドを大幅に増加させる。
本稿では,オンライン方式でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO) を,モデルトレーニングと並行して導入する。
既存の技術とは異なり、ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
代わりに、ADOはドメイン単位のスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整することにより、よりスケーラブルで簡単に統合できる。
実験により、ADOは、様々な計算スケールにわたる計算効率を維持しながら、従来の方法と同等または優れた性能を達成でき、柔軟性を犠牲にしたりコストを増大させることなく、データ分散を動的に調整する実用的なソリューションを提供する。
実用的なメリットに加えて、ADOは、スケーリング法則によるデータ収集戦略に関する新たな視点も提供する。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Dynamic Model Switching for Improved Accuracy in Machine Learning [0.0]
そこで我々は,CatBoostとXGBoostの直感的に遷移する適応アンサンブルを導入する。
ユーザは、80%の精度でベンチマークを設定し、パフォーマンスの向上を保証する場合に限って、システムが新しいモデルに動的に移行するように促す。
この動的モデルスイッチング機構は、現実世界のシナリオにおけるデータの進化的な性質と一致する。
論文 参考訳(メタデータ) (2024-01-31T00:13:02Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Transfer-Learning Across Datasets with Different Input Dimensions: An
Algorithm and Analysis for the Linear Regression Case [7.674023644408741]
本稿では,新しいデータと過去のデータを異なる入力次元で組み合わせた転送学習アルゴリズムを提案する。
提案手法は,9つの実生活データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T14:57:15Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。