論文の概要: Data-Efficient Training by Evolved Sampling
- arxiv url: http://arxiv.org/abs/2509.23461v1
- Date: Sat, 27 Sep 2025 19:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.239848
- Title: Data-Efficient Training by Evolved Sampling
- Title(参考訳): 進化サンプリングによるデータ効率向上トレーニング
- Authors: Ziheng Cheng, Zhong Li, Jiang Bian,
- Abstract要約: トレーニングプロセスに沿ってエファンダイナミックサンプリングを行うフレームワークであるtextbfEvolved Sampling (textbfES) を提案する。
ES(WP)は、様々な事前訓練および訓練後のタスクにおいて、損失のないトレーニングアクセラレーションを一貫して達成し、最大45%のウォールタイムを節約できる。
- 参考スコア(独自算出の注目度): 23.886561235819773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data selection is designed to accelerate learning with preserved performance. To achieve this, a fundamental thought is to identify informative data samples with significant contributions to the training. In this work, we propose \textbf{Evolved Sampling} (\textbf{ES}), a simple yet effective framework for \emph{dynamic} sampling along the training process. This method conducts \em batch \em level data selection based on the dynamics of losses and augmented \emph{loss differences}, which enables flexible \emph{frequency tuning}, and hence significantly reduces the back propagation time with maintained model performance. Due to its conciseness, ES is also readily extensible to incorporate \em set \em level data selection (to form ES with pruning, \textbf{ESWP}) for further accelerations. As a plug-and-play framework, ES(WP) consistently achieves lossless training accelerations across various pre-training and post-training tasks, saving up to nearly 45\% wall-clock time. Our results motivate further investigations on the data efficiency aspect of modern large-scale machine learning.
- Abstract(参考訳): データの選択は、保存されたパフォーマンスで学習を加速するように設計されている。
これを実現するために基本的な考え方は、トレーニングに多大な貢献をする情報的データサンプルを特定することである。
本研究では,トレーニングプロセスに沿って,emph{dynamic}サンプリングのためのシンプルかつ効果的なフレームワークである‘textbf{Evolved Smpling}(\textbf{ES})を提案する。
本手法は、損失のダイナミクスと拡張された \emph{loss difference} に基づいて、Shaem バッチ \em レベルのデータ選択を行い、フレキシブルな \emph{ frequency tuning} を可能にし、モデル性能の維持により、バック伝搬時間を著しく短縮する。
その簡潔さのため、ES はさらに加速するために \em 集合 \em レベルのデータ選択 (pruning で ES を形成するために \textbf{ESWP} を組み込むこともできる。
プラグイン・アンド・プレイのフレームワークとして、ES(WP)は、様々な事前トレーニングおよび後トレーニングタスクにおける損失のないトレーニングアクセラレーションを一貫して達成し、最大で45%のウォールタイムを節約できる。
この結果は、現代の大規模機械学習におけるデータ効率の側面に関するさらなる研究を動機付けている。
関連論文リスト
- \emph{FoQuS}: A Forgetting-Quality Coreset Selection Framework for Automatic Modulation Recognition [17.237106100331225]
提案するemphFoQuSは,元のデータセットからコアセットを選択することで,フルトレーニングの効果を近似する。
実験により、emphFoQuSは複数のAMRデータセット上で高い認識精度と優れたクロスアーキテクチャの一般化を維持できることが示された。
論文 参考訳(メタデータ) (2025-09-10T05:39:49Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - SwiftLearn: A Data-Efficient Training Method of Deep Learning Models
using Importance Sampling [3.8330834108666667]
ディープラーニングモデルのトレーニングを高速化するデータ効率のよいアプローチとして,SwiftLearnを提案する。
このサブセットは、ウォームアップ段階でデータセット全体にわたって測定された重要基準に基づいて選択される。
我々は、平均精度を0.92%以下に抑えながら、エンドツーエンドの平均スピードアップを3.36倍にすることで、データの90%近くを落とせることを示した。
論文 参考訳(メタデータ) (2023-11-25T22:51:01Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Effective Vision Transformer Training: A Data-Centric Perspective [24.02488085447691]
視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)と比較して有望な性能を示した
本稿では,DDP(Dynamic Data Proportion)やKAR(Knowledge Assimilation Rate)など,いくつかの指標を定義する。
トレーニングサンプルの難易度を動的に測定し,異なるトレーニング段階におけるモデルに対する効果的なサンプルを生成するための,新しいデータ中心型ViTトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T17:59:46Z) - MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the
Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。
提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。
以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文 参考訳(メタデータ) (2021-10-26T21:15:17Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。