論文の概要: DataRater: Meta-Learned Dataset Curation
- arxiv url: http://arxiv.org/abs/2505.17895v1
- Date: Fri, 23 May 2025 13:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.114573
- Title: DataRater: Meta-Learned Dataset Curation
- Title(参考訳): DataRater: メタラーニングされたデータセットのキュレーション
- Authors: Dan A. Calian, Gregory Farquhar, Iurii Kemaev, Luisa M. Zintgraf, Matteo Hessel, Jeremy Shar, Junhyuk Oh, András György, Tom Schaul, Jeffrey Dean, Hado van Hasselt, David Silver,
- Abstract要約: 特定のデータポイントにおけるトレーニングの価値を推定するemphDataRaterを提案する。
メタグラディエントを用いてメタラーニングを行い、保持データに対するトレーニング効率を向上させることを目的としている。
さまざまなモデルスケールとデータセットにわたる広範な実験では、データフィルタリングにDataRaterを使用することが極めて効果的であることが分かりました。
- 参考スコア(独自算出の注目度): 40.90328309013541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of foundation models depends heavily on their training data. Consequently, great efforts have been put into dataset curation. Yet most approaches rely on manual tuning of coarse-grained mixtures of large buckets of data, or filtering by hand-crafted heuristics. An approach that is ultimately more scalable (let alone more satisfying) is to \emph{learn} which data is actually valuable for training. This type of meta-learning could allow more sophisticated, fine-grained, and effective curation. Our proposed \emph{DataRater} is an instance of this idea. It estimates the value of training on any particular data point. This is done by meta-learning using `meta-gradients', with the objective of improving training efficiency on held out data. In extensive experiments across a range of model scales and datasets, we find that using our DataRater to filter data is highly effective, resulting in significantly improved compute efficiency.
- Abstract(参考訳): 基礎モデルの質は、トレーニングデータに大きく依存する。
その結果、データセットのキュレーションに多大な努力が払われた。
しかし、ほとんどのアプローチは、大きめのデータバケットの粗粒混合のマニュアルチューニングや、手作りのヒューリスティックスによるフィルタリングに依存している。
究極的には、よりスケーラブルな(ただ単に満足できる)アプローチは、トレーニングに実際に価値のあるデータである \emph{learn} である。
この種のメタラーニングは、より洗練され、きめ細かな、効果的なキュレーションを可能にします。
提案した \emph{DataRater} はこのアイデアの例です。
特定のデータポイントでトレーニングの価値を見積もる。
これは‘meta-gradients’を使ってメタラーニングを行い、保持データに対するトレーニング効率を向上させることを目的としている。
さまざまなモデルスケールとデータセットにわたる広範な実験において、データフィルタリングにDataRaterを使用することで、計算効率が大幅に向上することがわかった。
関連論文リスト
- Info-Coevolution: An Efficient Framework for Data Model Coevolution [11.754869657967207]
モデルとデータをバイアスのないオンライン選択アノテーションで共進化させる新しいフレームワークを提案する。
ImageNet-1Kのような現実世界のデータセットでは、Info-Coevolutionはアノテーションとトレーニングコストをパフォーマンス損失なく32%削減する。
論文 参考訳(メタデータ) (2025-06-09T17:04:11Z) - Progressive Data Dropout: An Embarrassingly Simple Approach to Faster Training [26.65053392031144]
ハードデータマイニングとドロップアウトの洞察を活用するための,代替的なトレーニングパラダイムを提案する。
提案されたプログレッシブデータドロップアウトは、有効エポックの数をベースラインの12.4%に削減する。
驚くべきことに,提案手法は最大4.82%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-28T13:26:52Z) - Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning [40.19639581728674]
タスク固有のデータに対する細調整された大規模言語モデル(LLM)は、その効果的なデプロイメントには不可欠である。
データウィスペラ (Data Whisperer) は,数発のインコンテクスト学習とモデルによる微調整を併用した,効率的でトレーニング不要なアテンションベースの手法である。
Data Whispererは、Llama-3-8B-インストラクトモデルの完全なGSM8Kデータセットよりも優れたパフォーマンスを実現し、データの10%しか使用せず、既存のメソッドよりも3.1ポイントの改善と7.4$times$スピードアップを実現している。
論文 参考訳(メタデータ) (2025-05-18T03:10:00Z) - How to Achieve Higher Accuracy with Less Training Points? [2.1834099301440526]
本稿では,学習セットにどのトレーニングサンプルを含めるべきかを決定するための影響関数に基づく手法を提案する。
当社のアプローチでは、データセット全体のトレーニングに匹敵するパフォーマンスを示しながら、データの10%しか使用していません。
論文 参考訳(メタデータ) (2025-04-18T09:38:26Z) - Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文 参考訳(メタデータ) (2024-05-28T16:43:57Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。
本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。
3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-02-26T15:41:48Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。