論文の概要: Scale Efficient Training for Large Datasets
- arxiv url: http://arxiv.org/abs/2503.13385v1
- Date: Mon, 17 Mar 2025 17:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:32.549146
- Title: Scale Efficient Training for Large Datasets
- Title(参考訳): 大規模データセットのための大規模学習
- Authors: Qing Zhou, Junyu Gao, Qi Wang,
- Abstract要約: 低値サンプルを除去するために、SeTaはまずランダムプルーニングを行い、余剰サンプルを除去し、残りのサンプルを損失によって測定された学習困難に応じてクラスタ化する。
SeTaは、性能を維持したり改善したりしながら、トレーニングコストを最大50%削減する。
- 参考スコア(独自算出の注目度): 27.28640920242675
- License:
- Abstract: The rapid growth of dataset scales has been a key driver in advancing deep learning research. However, as dataset scale increases, the training process becomes increasingly inefficient due to the presence of low-value samples, including excessive redundant samples, overly challenging samples, and inefficient easy samples that contribute little to model improvement.To address this challenge, we propose Scale Efficient Training (SeTa) for large datasets, a dynamic sample pruning approach that losslessly reduces training time. To remove low-value samples, SeTa first performs random pruning to eliminate redundant samples, then clusters the remaining samples according to their learning difficulty measured by loss. Building upon this clustering, a sliding window strategy is employed to progressively remove both overly challenging and inefficient easy clusters following an easy-to-hard curriculum.We conduct extensive experiments on large-scale synthetic datasets, including ToCa, SS1M, and ST+MJ, each containing over 3 million samples.SeTa reduces training costs by up to 50\% while maintaining or improving performance, with minimal degradation even at 70\% cost reduction. Furthermore, experiments on various scale real datasets across various backbones (CNNs, Transformers, and Mambas) and diverse tasks (instruction tuning, multi-view stereo, geo-localization, composed image retrieval, referring image segmentation) demonstrate the powerful effectiveness and universality of our approach. Code is available at https://github.com/mrazhou/SeTa.
- Abstract(参考訳): データセットスケールの急速な成長は、ディープラーニング研究を進める上で重要な要因である。
しかし,データセットのスケールが大きくなるにつれて,過剰な冗長サンプルや過度に挑戦するサンプル,モデル改善にはほとんど寄与しない非効率なサンプルなどを含む低値サンプルの存在により,トレーニングプロセスは効率が低下する。この課題に対処するため,大規模データセットに対するスケール効率訓練(SeTa)を提案する。
低値サンプルを除去するために、SeTaはまずランダムプルーニングを行い、余剰サンプルを除去し、残りのサンプルを損失によって測定された学習困難に応じてクラスタ化する。
このクラスタリングを基盤として,ToCa,SS1M,ST+MJなどの大規模合成データセットに対して,過度に困難かつ非効率なクラスタを段階的に除去するスライディングウインドウ戦略を導入し,300万以上のサンプルを含む大規模合成データセットについて広範な実験を行った。SeTaは,性能を維持・改善しながらトレーニングコストを最大50%削減し,70倍のコスト削減でも最小限の劣化を達成できる。
さらに, 様々なバックボーン(CNN, Transformer, Mambas)および多様なタスク(インストラクションチューニング, マルチビューステレオ, ジオローカライゼーション, 合成画像検索, 画像セグメンテーション, 参照画像セグメンテーション)を対象に, 提案手法の有効性と普遍性を示した。
コードはhttps://github.com/mrazhou/SeTaで入手できる。
関連論文リスト
- FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.60823802317141]
我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:27:57Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Detection of Under-represented Samples Using Dynamic Batch Training for Brain Tumor Segmentation from MR Images [0.8437187555622164]
磁気共鳴イメージング(MR)における脳腫瘍は困難であり、時間を要する。
これらの課題は、MR画像から自動脳腫瘍分割法を開発することで解決できる。
U-Netに基づく様々なディープラーニングモデルが提案されている。
これらのディープラーニングモデルは、腫瘍画像のデータセットに基づいてトレーニングされ、マスクのセグメント化に使用される。
論文 参考訳(メタデータ) (2024-08-21T21:51:47Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning [28.042568086423298]
ランダム・サブセットの繰り返しサンプリング(RS2)は、強力だが見落とされたランダムサンプリング戦略である。
我々は、ImageNetを含む4つのデータセットにわたる30の最先端データプルーニングとデータ蒸留法に対してRS2をテストする。
その結果,RS2は既存の手法に比べて時間と精度を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2023-05-28T20:38:13Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Efficient Deep Representation Learning by Adaptive Latent Space Sampling [16.320898678521843]
監視されたディープラーニングには、アノテーションを備えた大量のトレーニングサンプルが必要です。
本稿では,学習プロセスに供給される情報サンプルを適応的に選択する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-19T22:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。