論文の概要: Soft Random Sampling: A Theoretical and Empirical Analysis
- arxiv url: http://arxiv.org/abs/2311.12727v2
- Date: Fri, 24 Nov 2023 03:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:45:53.833131
- Title: Soft Random Sampling: A Theoretical and Empirical Analysis
- Title(参考訳): ソフトランダムサンプリング:理論的および経験的分析
- Authors: Xiaodong Cui, Ashish Mittal, Songtao Lu, Wei Zhang, George Saon, Brian
Kingsbury
- Abstract要約: ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
- 参考スコア(独自算出の注目度): 59.719035355483875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft random sampling (SRS) is a simple yet effective approach for efficient
training of large-scale deep neural networks when dealing with massive data.
SRS selects a subset uniformly at random with replacement from the full data
set in each epoch. In this paper, we conduct a theoretical and empirical
analysis of SRS. First, we analyze its sampling dynamics including data
coverage and occupancy. Next, we investigate its convergence with non-convex
objective functions and give the convergence rate. Finally, we provide its
generalization performance. We empirically evaluate SRS for image recognition
on CIFAR10 and automatic speech recognition on Librispeech and an in-house
payload dataset to demonstrate its effectiveness. Compared to existing
coreset-based data selection methods, SRS offers a better accuracy-efficiency
trade-off. Especially on real-world industrial scale data sets, it is shown to
be a powerful training strategy with significant speedup and competitive
performance with almost no additional computing cost.
- Abstract(参考訳): ソフトランダムサンプリング(Soft random sample, SRS)は、大規模深層ニューラルネットワークの大規模データ処理において、効率的かつ効果的なトレーニング手法である。
SRSは、各エポックにおける全データセットから、ランダムに置換されたサブセットを選択する。
本稿では,SRSの理論的,実証的な分析を行う。
まず,データカバレッジや占有率を含むサンプリングダイナミクスを分析する。
次に,非凸目的関数との収束を調べ,収束率を与える。
最後に、一般化性能を提供する。
CIFAR10における画像認識のためのSRSと、Librispeechにおける音声認識と、その有効性を示すための社内ペイロードデータセットを実験的に評価した。
既存のコアセットベースのデータ選択方法と比較して、SRSは精度と効率のトレードオフが優れている。
特に実世界の産業規模のデータセットでは、大きなスピードアップと競争性能を持つ強力なトレーニング戦略であり、追加の計算コストがほとんどないことが示されている。
関連論文リスト
- Double Machine Learning for Adaptive Causal Representation in High-Dimensional Data [14.25379577156518]
サポートポイントサンプル分割(SPSS)は、因果推論において効率的なダブル機械学習(DML)に使用される。
ランダムサンプル中の全生データの最適な代表点として支持点を選択して分割する。
それらは、完全な大きなデータセットの最良の表現を提供するが、従来のランダムデータ分割による基礎となる分布の単位構造情報は、ほとんど保存されない。
論文 参考訳(メタデータ) (2024-11-22T01:54:53Z) - A Reproducible Analysis of Sequential Recommender Systems [13.987953631479662]
SequentialEnsurer Systems (SRS) はレコメンデーションシステムに対する高度に効率的なアプローチとして登場した。
既存の作品では、結果の複製性の欠点が示されており、論文間の矛盾した記述につながっている。
当社の作業は、データ前処理とモデル実装の標準化によって、これらのギャップを埋めます。
論文 参考訳(メタデータ) (2024-08-07T16:23:29Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Repeated Random Sampling for Minimizing the Time-to-Accuracy of Learning [28.042568086423298]
ランダム・サブセットの繰り返しサンプリング(RS2)は、強力だが見落とされたランダムサンプリング戦略である。
我々は、ImageNetを含む4つのデータセットにわたる30の最先端データプルーニングとデータ蒸留法に対してRS2をテストする。
その結果,RS2は既存の手法に比べて時間と精度を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2023-05-28T20:38:13Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - NeRF in detail: Learning to sample for view synthesis [104.75126790300735]
ニューラルレイディアンス場(NeRF)法は目覚ましい新しいビュー合成を実証している。
この作業では、バニラ粗大なアプローチの明確な制限に対処します -- パフォーマンスに基づいており、手元にあるタスクのエンドツーエンドをトレーニングしていません。
我々は、サンプルの提案と、そのネットワークにおける重要性を学習し、そのニューラルネットワークアーキテクチャに対する複数の代替案を検討し比較する、微分可能なモジュールを導入する。
論文 参考訳(メタデータ) (2021-06-09T17:59:10Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。