論文の概要: Efficient Gradient Estimation via Adaptive Sampling and Importance
Sampling
- arxiv url: http://arxiv.org/abs/2311.14468v1
- Date: Fri, 24 Nov 2023 13:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:14:52.381503
- Title: Efficient Gradient Estimation via Adaptive Sampling and Importance
Sampling
- Title(参考訳): 適応サンプリングと重要度サンプリングによる効率的勾配推定
- Authors: Corentin Sala\"un, Xingchang Huang, Iliyan Georgiev, Niloy J. Mitra,
Gurprit Singh
- Abstract要約: 適応的あるいは重要なサンプリングは、勾配推定におけるノイズを低減する。
本稿では,既存の重要関数をフレームワークに組み込むアルゴリズムを提案する。
計算オーバーヘッドを最小限に抑えた分類・回帰タスクにおける収束性の改善を観察する。
- 参考スコア(独自算出の注目度): 34.50693643119071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning problems rely heavily on stochastic gradient descent (SGD)
for optimization. The effectiveness of SGD is contingent upon accurately
estimating gradients from a mini-batch of data samples. Instead of the commonly
used uniform sampling, adaptive or importance sampling reduces noise in
gradient estimation by forming mini-batches that prioritize crucial data
points. Previous research has suggested that data points should be selected
with probabilities proportional to their gradient norm. Nevertheless, existing
algorithms have struggled to efficiently integrate importance sampling into
machine learning frameworks. In this work, we make two contributions. First, we
present an algorithm that can incorporate existing importance functions into
our framework. Second, we propose a simplified importance function that relies
solely on the loss gradient of the output layer. By leveraging our proposed
gradient estimation techniques, we observe improved convergence in
classification and regression tasks with minimal computational overhead. We
validate the effectiveness of our adaptive and importance-sampling approach on
image and point-cloud datasets.
- Abstract(参考訳): 機械学習の問題は最適化のために確率勾配降下(SGD)に大きく依存している。
sgdの有効性は,データサンプルのミニバッチから勾配を正確に推定することにある。
一般に使用される一様サンプリングの代わりに、適応サンプリングまたは重要サンプリングは、重要なデータポイントを優先するミニバッチを形成することにより、勾配推定におけるノイズを低減する。
以前の研究では、データポイントは勾配ノルムに比例する確率で選択されるべきであることが示唆された。
それでも、既存のアルゴリズムは、機械学習フレームワークに重要なサンプリングを統合するのに苦労している。
この作品では、私たちは2つの貢献をします。
まず,既存の重要な機能をフレームワークに組み込むアルゴリズムを提案する。
次に,出力層の損失勾配のみに依存する簡易な重要度関数を提案する。
提案手法を応用して,計算オーバーヘッドを最小限に抑えた分類および回帰タスクの収束性を改善する。
画像およびポイントクラウドデータセットに対する適応的および重要サンプリング手法の有効性を検証する。
関連論文リスト
- Data Pruning Can Do More: A Comprehensive Data Pruning Approach for Object Re-identification [13.732596789612362]
この研究は、オブジェクトの再識別タスクに適用されたデータプルーニングメソッドの実現可能性について、最初の研究である。
トレーニング中のロジット履歴を十分に活用することにより,本手法は試料の重要度を定量化するための,より正確で包括的な指標を提供する。
提案手法は高効率であり,従来の手法に比べて10倍のコストで重要なスコア推定を行うことができる。
論文 参考訳(メタデータ) (2024-12-13T12:27:47Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - Adaptive Sampling for Deep Learning via Efficient Nonparametric Proxies [35.29595714883275]
我々は,Nadaraya-Watson推定器に対する効率的なスケッチベース近似を開発した。
サンプリングアルゴリズムは,4つのデータセットに対して,壁面時間と精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-11-22T18:40:18Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。
本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。
3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-02-26T15:41:48Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。