論文の概要: CLIP: Train Faster with Less Data
- arxiv url: http://arxiv.org/abs/2212.01452v1
- Date: Fri, 2 Dec 2022 21:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:38:33.908059
- Title: CLIP: Train Faster with Less Data
- Title(参考訳): CLIP: 少ないデータでより速くトレーニングする
- Authors: Muhammad Asif Khan, Ridha Hamila, and Hamid Menouar
- Abstract要約: ディープラーニングモデルは、トレーニングに膨大な量のデータを必要とします。
近年、機械学習はモデル中心のアプローチからデータ中心のアプローチへとシフトしている。
CLIP(CLIP, Curriculum Learning with Iterative data Pruning)を提案する。
- 参考スコア(独自算出の注目度): 3.2575001434344286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models require an enormous amount of data for training.
However, recently there is a shift in machine learning from model-centric to
data-centric approaches. In data-centric approaches, the focus is to refine and
improve the quality of the data to improve the learning performance of the
models rather than redesigning model architectures. In this paper, we propose
CLIP i.e., Curriculum Learning with Iterative data Pruning. CLIP combines two
data-centric approaches i.e., curriculum learning and dataset pruning to
improve the model learning accuracy and convergence speed. The proposed scheme
applies loss-aware dataset pruning to iteratively remove the least significant
samples and progressively reduces the size of the effective dataset in the
curriculum learning training. Extensive experiments performed on crowd density
estimation models validate the notion behind combining the two approaches by
reducing the convergence time and improving generalization. To our knowledge,
the idea of data pruning as an embedded process in curriculum learning is
novel.
- Abstract(参考訳): ディープラーニングモデルは、トレーニングに膨大なデータを必要とします。
しかし、最近では機械学習がモデル中心からデータ中心のアプローチにシフトしている。
データ中心のアプローチでは、モデルアーキテクチャを再設計するのではなく、データの品質を洗練・改善し、モデルの学習性能を改善することに重点を置いています。
本稿では,CLIP(Criculum Learning with Iterative Data Pruning)を提案する。
CLIPは、カリキュラム学習とデータセットプルーニングという2つのデータ中心のアプローチを組み合わせて、モデルの学習精度と収束速度を改善する。
提案手法は,最小限のサンプルを反復的に除去し,カリキュラム学習における有効データセットのサイズを段階的に削減する。
群集密度推定モデルを用いて行った広範囲な実験は、収束時間を短縮し一般化を改善することにより、この2つのアプローチの背後にある概念を検証する。
我々の知る限り、カリキュラム学習における組込みプロセスとしてのデータプルーニングの考え方は新しくない。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - CILIATE: Towards Fairer Class-based Incremental Learning by Dataset and
Training Refinement [20.591583747291892]
我々は、CILがデータセットとアルゴリズムのバイアスの両方に悩まされていることを示す。
本稿では,CILにおけるデータセットとアルゴリズムバイアスを両立させる新しいフレームワークCILIATEを提案する。
CILIATEは最先端の手法と比較してCILの公正性を17.03%、22.46%、31.79%改善している。
論文 参考訳(メタデータ) (2023-04-09T12:10:39Z) - Training Efficiency and Robustness in Deep Learning [2.6451769337566406]
ディープラーニングモデルのトレーニング効率と堅牢性を改善するためのアプローチについて検討する。
より情報的なトレーニングデータに基づく学習の優先順位付けは収束速度を高め、テストデータに対する一般化性能を向上させる。
トレーニングデータのサンプリングに対する冗長性を考慮した修正により、トレーニング速度が向上し、トレーニング信号の多様性を検出する効率的な方法が開発されていることを示す。
論文 参考訳(メタデータ) (2021-12-02T17:11:33Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。