論文の概要: DRIP: DRop unImportant data Points -- Enhancing Machine Learning Efficiency with Grad-CAM-Based Real-Time Data Prioritization for On-Device Training
- arxiv url: http://arxiv.org/abs/2504.08364v1
- Date: Fri, 11 Apr 2025 09:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:15.399016
- Title: DRIP: DRop unImportant data Points -- Enhancing Machine Learning Efficiency with Grad-CAM-Based Real-Time Data Prioritization for On-Device Training
- Title(参考訳): DRIP: DRop unImportant data Points -- デバイス上でのトレーニングのためのGrad-CAMベースのリアルタイムデータ優先順位付けによる機械学習効率の向上
- Authors: Marcus Rüb, Daniel Konegen, Axel Sikora, Daniel Mueller-Gritschneder,
- Abstract要約: Grad-CAMは、データセット全体にアクセスすることなく、データポイント保持に関するオンライン決定を行う。
これは、データセット全体にアクセスする必要なく、データポイント保持に関するオンライン決定を行う最初のアルゴリズムである。
- 参考スコア(独自算出の注目度): 0.4345992906143838
- License:
- Abstract: Selecting data points for model training is critical in machine learning. Effective selection methods can reduce the labeling effort, optimize on-device training for embedded systems with limited data storage, and enhance the model performance. This paper introduces a novel algorithm that uses Grad-CAM to make online decisions about retaining or discarding data points. Optimized for embedded devices, the algorithm computes a unique DRIP Score to quantify the importance of each data point. This enables dynamic decision-making on whether a data point should be stored for potential retraining or discarded without compromising model performance. Experimental evaluations on four benchmark datasets demonstrate that our approach can match or even surpass the accuracy of models trained on the entire dataset, all while achieving storage savings of up to 39\%. To our knowledge, this is the first algorithm that makes online decisions about data point retention without requiring access to the entire dataset.
- Abstract(参考訳): モデルトレーニングのためのデータポイントの選択は、機械学習において重要である。
効果的な選択方法は、ラベル付けの労力を削減し、データストレージに制限のある組み込みシステムのデバイス上でのトレーニングを最適化し、モデル性能を向上させることができる。
本稿では、Grad-CAMを用いて、データポイントの保持や破棄に関するオンライン決定を行う新しいアルゴリズムを提案する。
組込みデバイスに最適化されたアルゴリズムは、ユニークなDRIPスコアを計算し、各データポイントの重要性を定量化する。
これにより、モデルパフォーマンスを損なうことなく、潜在的な再トレーニングのためにデータポイントを格納するか、あるいは破棄するかを動的に決定できる。
4つのベンチマークデータセットに対する実験的な評価は、我々のアプローチがデータセット全体でトレーニングされたモデルの精度と一致するか、さらに上回っていることを示している。
私たちの知る限り、データセット全体にアクセスする必要なく、データポイント保持に関するオンライン決定を行う最初のアルゴリズムです。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
そこで本研究では,各トレーニング時代のモデル性能における各データサブセットの有用性を近似したCHG(Compound of Hardness and Gradient)ユーティリティ関数を提案する。
CHGユーティリティ関数を用いて各データポイント毎の閉形式のShapley値を導出することにより、計算複雑性を1つのモデル再学習に還元する。
さらに、CHG Shapleyをリアルタイムデータ選択に利用し、標準データセット、ラベルノイズデータセット、クラス不均衡データセットの3つの設定で実験を行います。
論文 参考訳(メタデータ) (2024-06-17T16:48:31Z) - Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Online Data Selection for Federated Learning with Limited Storage [53.46789303416799]
ネットワークデバイス間での分散機械学習を実現するために、フェデレートラーニング(FL)が提案されている。
デバイス上のストレージがFLの性能に与える影響はまだ調査されていない。
本研究では,デバイス上のストレージを限定したFLのオンラインデータ選択について検討する。
論文 参考訳(メタデータ) (2022-09-01T03:27:33Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Dataset Meta-Learning from Kernel Ridge-Regression [18.253682891579402]
Kernel Inducing Points (KIP) はデータセットを1桁から2桁に圧縮することができる。
KIP学習データセットは、遅延学習体制を超えても有限幅ニューラルネットワークのトレーニングに転送可能である。
論文 参考訳(メタデータ) (2020-10-30T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。