論文の概要: Evaluating Sample Utility for Data Selection by Mimicking Model Weights
- arxiv url: http://arxiv.org/abs/2501.06708v1
- Date: Sun, 12 Jan 2025 04:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:54.066245
- Title: Evaluating Sample Utility for Data Selection by Mimicking Model Weights
- Title(参考訳): モデル重みの緩和によるデータ選択のためのサンプルユーティリティの評価
- Authors: Tzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan,
- Abstract要約: ファンデーションモデルは、大規模なWebcrawledデータセットに依存している。
我々は,新しいモデルをトレーニングするためのデータサンプルの有用性を評価するために,新しいアプローチであるMimic Scoreを提案する。
有用なサンプルを識別・優先順位付けするデータ選択フレームワークであるGrad-Mimicを開発した。
- 参考スコア(独自算出の注目度): 12.056542160711718
- License:
- Abstract: Foundation models rely on large-scale web-crawled datasets, which frequently contain noisy data, biases, and irrelevant content. Existing data selection techniques typically use human heuristics, downstream evaluation datasets, or specialized scoring models, and can overlook samples' utility in the training process. Instead, we propose a new approach, Mimic Score, a data quality metric that uses a pretrained reference model as a guide to assess the usefulness of data samples for training a new model. It relies on the alignment between the gradient of the new model parameters and the vector pointing toward the reference model in weight space. Samples that misalign with this direction are considered low-value and can be filtered out. Motivated by the Mimic score, we develop Grad-Mimic, a data selection framework that identifies and prioritizes useful samples, automating the selection process to create effective filters. Empirically, using Mimic scores to guide model training results in consistent performance gains across six image datasets and enhances the performance of CLIP models. Moreover, Mimic scores and their associated filters improve upon existing filtering methods and offer accurate estimation of dataset quality.
- Abstract(参考訳): ファンデーションモデルは、しばしばノイズの多いデータ、バイアス、無関係なコンテンツを含む大規模なWebcrawledデータセットに依存している。
既存のデータ選択技術は通常、人間のヒューリスティックス、下流評価データセット、あるいは特別なスコアリングモデルを使用し、トレーニングプロセスにおけるサンプルの有用性を見落としることができる。
代わりに、トレーニング済み参照モデルを用いたデータ品質指標であるMimic Scoreを提案し、新しいモデルをトレーニングするためのデータサンプルの有用性を評価する。
これは、新しいモデルパラメータの勾配と、ウェイト空間における参照モデルへのベクトルとのアライメントに依存する。
この方向と不一致なサンプルは、低値と見なされ、フィルタリングできる。
Mimicスコアに触発されて、有用なサンプルを特定し、優先順位付けするデータ選択フレームワークであるGrad-Mimicを開発し、選択プロセスを自動化することにより、効率的なフィルタを作成する。
経験的に、Mimicスコアを使用してモデルトレーニングをガイドすると、6つのイメージデータセット間で一貫したパフォーマンスが向上し、CLIPモデルのパフォーマンスが向上する。
さらに、Mimicスコアとその関連するフィルタは、既存のフィルタリング手法を改善し、データセットの品質を正確に推定する。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter [7.886307329450978]
ダイナスタイルのアルゴリズムは、推定環境モデルからのシミュレーションデータを用いてモデルフリートレーニングを加速することにより、2つのアプローチを組み合わせる。
これまでの作業では、モデルアンサンブルを使用したり、実際の環境から収集されたデータで推定されたモデルを事前訓練することで、この問題に対処している。
本研究では,実環境において収集したデータから大きく分岐する推定モデルからシミュレーションデータを除去するアウト・オブ・ディストリビューションデータフィルタを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:49:03Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - Training Experimentally Robust and Interpretable Binarized Regression
Models Using Mixed-Integer Programming [3.179831861897336]
マルチクラス分類タスクに対するロバストかつ解釈可能な二項化回帰モデルをトレーニングするためのモデルに基づくアプローチを提案する。
MIPモデルは、重み付けされた目的を用いて予測マージンとモデルサイズを最適化する。
MIPを用いた頑健かつ解釈可能な二項化回帰モデルのトレーニングの有効性を示す。
論文 参考訳(メタデータ) (2021-12-01T11:53:08Z) - Model-specific Data Subsampling with Influence Functions [37.64859614131316]
トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。