論文の概要: DataRater: Meta-Learned Dataset Curation
- arxiv url: http://arxiv.org/abs/2505.17895v1
- Date: Fri, 23 May 2025 13:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.114573
- Title: DataRater: Meta-Learned Dataset Curation
- Title(参考訳): DataRater: メタラーニングされたデータセットのキュレーション
- Authors: Dan A. Calian, Gregory Farquhar, Iurii Kemaev, Luisa M. Zintgraf, Matteo Hessel, Jeremy Shar, Junhyuk Oh, András György, Tom Schaul, Jeffrey Dean, Hado van Hasselt, David Silver,
- Abstract要約: 特定のデータポイントにおけるトレーニングの価値を推定するemphDataRaterを提案する。
メタグラディエントを用いてメタラーニングを行い、保持データに対するトレーニング効率を向上させることを目的としている。
さまざまなモデルスケールとデータセットにわたる広範な実験では、データフィルタリングにDataRaterを使用することが極めて効果的であることが分かりました。
- 参考スコア(独自算出の注目度): 40.90328309013541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of foundation models depends heavily on their training data. Consequently, great efforts have been put into dataset curation. Yet most approaches rely on manual tuning of coarse-grained mixtures of large buckets of data, or filtering by hand-crafted heuristics. An approach that is ultimately more scalable (let alone more satisfying) is to \emph{learn} which data is actually valuable for training. This type of meta-learning could allow more sophisticated, fine-grained, and effective curation. Our proposed \emph{DataRater} is an instance of this idea. It estimates the value of training on any particular data point. This is done by meta-learning using `meta-gradients', with the objective of improving training efficiency on held out data. In extensive experiments across a range of model scales and datasets, we find that using our DataRater to filter data is highly effective, resulting in significantly improved compute efficiency.
- Abstract(参考訳): 基礎モデルの質は、トレーニングデータに大きく依存する。
その結果、データセットのキュレーションに多大な努力が払われた。
しかし、ほとんどのアプローチは、大きめのデータバケットの粗粒混合のマニュアルチューニングや、手作りのヒューリスティックスによるフィルタリングに依存している。
究極的には、よりスケーラブルな(ただ単に満足できる)アプローチは、トレーニングに実際に価値のあるデータである \emph{learn} である。
この種のメタラーニングは、より洗練され、きめ細かな、効果的なキュレーションを可能にします。
提案した \emph{DataRater} はこのアイデアの例です。
特定のデータポイントでトレーニングの価値を見積もる。
これは‘meta-gradients’を使ってメタラーニングを行い、保持データに対するトレーニング効率を向上させることを目的としている。
さまざまなモデルスケールとデータセットにわたる広範な実験において、データフィルタリングにDataRaterを使用することで、計算効率が大幅に向上することがわかった。
関連論文リスト
- How to Achieve Higher Accuracy with Less Training Points? [2.1834099301440526]
本稿では,学習セットにどのトレーニングサンプルを含めるべきかを決定するための影響関数に基づく手法を提案する。
当社のアプローチでは、データセット全体のトレーニングに匹敵するパフォーマンスを示しながら、データの10%しか使用していません。
論文 参考訳(メタデータ) (2025-04-18T09:38:26Z) - Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文 参考訳(メタデータ) (2024-05-28T16:43:57Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。
本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。
3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-02-26T15:41:48Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。