論文の概要: Optimizing Data Curation through Spectral Analysis and Joint Batch Selection (SALN)
- arxiv url: http://arxiv.org/abs/2412.17069v1
- Date: Sun, 22 Dec 2024 15:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:01.631930
- Title: Optimizing Data Curation through Spectral Analysis and Joint Batch Selection (SALN)
- Title(参考訳): スペクトル解析と共同バッチ選択(SALN)によるデータキュレーションの最適化
- Authors: Mohammadreza Sharifi,
- Abstract要約: 本稿では,データセット全体からではなく,各バッチ内のサンプルを優先順位付けして選択する手法であるSALNを紹介する。
提案手法は,各バッチ内の最も情報性の高いデータポイントを特定するためのスペクトル解析を応用し,学習速度と精度を向上する。
最大8倍のトレーニング時間を短縮し、標準のトレーニングメソッドよりも最大5%の精度を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In modern deep learning models, long training times and large datasets present significant challenges to both efficiency and scalability. Effective data curation and sample selection are crucial for optimizing the training process of deep neural networks. This paper introduces SALN, a method designed to prioritize and select samples within each batch rather than from the entire dataset. By utilizing jointly selected batches, SALN enhances training efficiency compared to independent batch selection. The proposed method applies a spectral analysis-based heuristic to identify the most informative data points within each batch, improving both training speed and accuracy. The SALN algorithm significantly reduces training time and enhances accuracy when compared to traditional batch prioritization or standard training procedures. It demonstrates up to an 8x reduction in training time and up to a 5\% increase in accuracy over standard training methods. Moreover, SALN achieves better performance and shorter training times compared to Google's JEST method developed by DeepMind.
- Abstract(参考訳): 現代のディープラーニングモデルでは、長いトレーニング時間と大規模なデータセットは、効率性とスケーラビリティの両方に大きな課題をもたらします。
ディープニューラルネットワークのトレーニングプロセスの最適化には,効果的なデータキュレーションとサンプル選択が不可欠である。
本稿では,データセット全体からではなく,各バッチ内のサンプルを優先順位付けして選択する手法であるSALNを紹介する。
共同選択されたバッチを利用することで、SALNは独立したバッチ選択よりもトレーニング効率を向上させる。
提案手法はスペクトル解析に基づくヒューリスティックを用いて各バッチ内の最も情報性の高いデータポイントを同定し、トレーニング速度と精度を向上する。
SALNアルゴリズムは、従来のバッチ優先順位付けや標準トレーニング手順と比較して、トレーニング時間を著しく短縮し、精度を高める。
最大8倍のトレーニング時間を短縮し、標準のトレーニングメソッドよりも最大5倍の精度を向上する。
さらに、SALNはDeepMindが開発したGoogleのJESTメソッドと比較して、パフォーマンスとトレーニング時間の短縮を実現している。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning [28.042568086423298]
ランダム・サブセットの繰り返しサンプリング(RS2)は、強力だが見落とされたランダムサンプリング戦略である。
我々は、ImageNetを含む4つのデータセットにわたる30の最先端データプルーニングとデータ蒸留法に対してRS2をテストする。
その結果,RS2は既存の手法に比べて時間と精度を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2023-05-28T20:38:13Z) - Efficient human-in-loop deep learning model training with iterative
refinement and statistical result validation [0.0]
本稿では,超音波イメージング機械学習パイプラインのデータクリーニングに必要なセグメンテーションを作成する方法を紹介する。
本研究では、自動生成したトレーニングデータと人間の視覚的チェックを高速に活用し、時間とコストを低く保ちながら、モデルの精度を向上させる4段階の手法を提案する。
本手法は、静的PHIを含む背景データを除去し、心臓超音波セグメンテーションタスクで実演する。
論文 参考訳(メタデータ) (2023-04-03T13:56:01Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。