Fugu-MT 論文翻訳(概要): Understanding the Training Speedup from Sampling with Approximate Losses

論文の概要: Understanding the Training Speedup from Sampling with Approximate Losses

arxiv url: http://arxiv.org/abs/2402.07052v2
Date: Wed, 04 Jun 2025 03:06:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:13.774939
Title: Understanding the Training Speedup from Sampling with Approximate Losses
Title（参考訳）: 近似損失を用いたサンプリングによるトレーニングスピードアップの理解
Authors: Rudrajit Das, Xi Chen, Bertram Ieong, Parikshit Bansal, Sujay Sanghavi,
Abstract要約: 本研究は, 正確な損失ではなく, 大規模なテクスタイトアポキシメート損失を有する試料を選択するという欲求的なアプローチに焦点をあてる。滑らかな凸損失に対して、そのような欲求戦略は、より少ないイテレーションで平均損失の最小値の定数係数に収束できることを示す。次に,早期退避を利用してサンプル選択のための中間層表現を用いて近似損失を求めるSIFTを開発する。
参考スコア（独自算出の注目度）: 14.166048343288157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is well known that selecting samples with large losses/gradients can significantly reduce the number of training steps. However, the selection overhead is often too high to yield any meaningful gains in terms of overall training time. In this work, we focus on the greedy approach of selecting samples with large \textit{approximate losses} instead of exact losses in order to reduce the selection overhead. For smooth convex losses, we show that such a greedy strategy can converge to a constant factor of the minimum value of the average loss in fewer iterations than the standard approach of random selection. We also theoretically quantify the effect of the approximation level. We then develop SIFT which uses early exiting to obtain approximate losses with an intermediate layer's representations for sample selection. We evaluate SIFT on the task of training a 110M parameter 12 layer BERT base model, and show significant gains (in terms of training hours and number of backpropagation steps) without any optimized implementation over vanilla training. For e.g., to reach 64% validation accuracy, SIFT with exit at the first layer takes ~ 43 hours compared to ~ 57 hours of vanilla training.
Abstract（参考訳）: 大きな損失/漸進的なサンプルを選択することで、トレーニングステップの数を著しく減らすことはよく知られている。しかしながら、選択のオーバーヘッドが高すぎて、全体的なトレーニング時間において意味のある利益を得ることができない場合が多い。本研究では,選択オーバーヘッドを低減するために,精度の高い損失ではなく,大きな‘textit{approximate loss’ を持つサンプルを選択するという欲求的なアプローチに焦点をあてる。滑らかな凸損失に対して、そのような欲求戦略は、ランダム選択の標準的なアプローチよりも少ないイテレーションで平均損失の最小値の定数係数に収束できることを示す。また、近似レベルの効果を理論的に定量化する。次に,早期退避を利用してサンプル選択のための中間層表現を用いて近似損失を求めるSIFTを開発する。我々は,110Mパラメータ12層BERTベースモデルのトレーニング作業においてSIFTを評価し,バニラトレーニングよりも最適化された実装をすることなく,(トレーニング時間やバックプロパゲーションステップの数の観点から)有意な利得を示した。例えば、検証精度が64%に達するためには、第1層の出口を持つSIFTは、57時間のバニラトレーニングに比べて43時間程度かかる。

関連論文リスト

ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。 Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。 GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳（メタデータ） (2025-05-26T12:23:26Z)
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
論文参考訳（メタデータ） (2025-04-10T17:49:05Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Efficient Neural Network Training via Subset Pretraining [5.352839075466439]
ニューラルネットワークのトレーニングでは、バッチ上で計算された部分勾配を使用するのが一般的である。トレーニングセットの損失最小限は、そのサブセットのミニマによって適切に近似されることが期待できる。実験の結果従来の訓練に匹敵する結果に達できることが確認されました。
論文参考訳（メタデータ） (2024-10-21T21:31:12Z)
Robust Time Series Forecasting with Non-Heavy-Tailed Gaussian Loss-Weighted Sampler [1.8816077341295625]
近年のリサンプリング手法は, ランニング損失に基づいてサンプルを再重み付けすることで, トレーニング効率を向上させることを目的としている。本稿では,ガウスの損失重みとガウスの分布重みとを乗算するガウスの損失重み付きサンプリング手法を提案する。これは、平均的な損失に近いものを選びながら、非常に低い、または非常に高い損失でサンプルを選択する確率を下げる。
論文参考訳（メタデータ） (2024-06-19T22:28:18Z)
Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-01T03:27:08Z)
A Negative Result on Gradient Matching for Selective Backprop [8.463693396893731]
ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
論文参考訳（メタデータ） (2023-12-08T13:03:10Z)
Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。 MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文参考訳（メタデータ） (2023-10-23T08:00:03Z)
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文参考訳（メタデータ） (2023-10-16T06:19:29Z)
Towards Memory- and Time-Efficient Backpropagation for Training Spiking Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。 BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文参考訳（メタデータ） (2023-02-28T05:01:01Z)
Prioritizing Samples in Reinforcement Learning with Reducible Loss [5.901819658403315]
サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。学習能力の高いサンプルを優先するアルゴリズムを開発し,学習が難しいものに優先度を低く割り当てる。
論文参考訳（メタデータ） (2022-08-22T17:55:43Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)
Sample Selection with Uncertainty of Losses for Learning with Noisy Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文参考訳（メタデータ） (2021-06-01T12:53:53Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。