論文の概要: Same accuracy, twice as fast: continuous training surpasses retraining from scratch
- arxiv url: http://arxiv.org/abs/2502.21147v1
- Date: Fri, 28 Feb 2025 15:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:13.433351
- Title: Same accuracy, twice as fast: continuous training surpasses retraining from scratch
- Title(参考訳): 同じ精度、2倍の速さで、継続的トレーニングはスクラッチからトレーニングを超過する
- Authors: Eli Verwimp, Guy Hacohen, Tinne Tuytelaars,
- Abstract要約: 連続学習は、モデルが学習したデータのパフォーマンスを損なうことなく、新しいデータセットに適応できるようにすることを目的としている。
場合によっては、以前のデータでトレーニングされたモデルを放棄し、両方のデータセットでスクラッチから新しいモデルを再トレーニングすることで、両方のデータセットのパフォーマンスが向上する。
評価フレームワークは,これらの手法をスクラッチからトレーニング性能を維持したり,超えたりしながら,計算的貯蓄量を定量化する。
- 参考スコア(独自算出の注目度): 40.678628069564745
- License:
- Abstract: Continual learning aims to enable models to adapt to new datasets without losing performance on previously learned data, often assuming that prior data is no longer available. However, in many practical scenarios, both old and new data are accessible. In such cases, good performance on both datasets is typically achieved by abandoning the model trained on the previous data and re-training a new model from scratch on both datasets. This training from scratch is computationally expensive. In contrast, methods that leverage the previously trained model and old data are worthy of investigation, as they could significantly reduce computational costs. Our evaluation framework quantifies the computational savings of such methods while maintaining or exceeding the performance of training from scratch. We identify key optimization aspects -- initialization, regularization, data selection, and hyper-parameters -- that can each contribute to reducing computational costs. For each aspect, we propose effective first-step methods that already yield substantial computational savings. By combining these methods, we achieve up to 2.7x reductions in computation time across various computer vision tasks, highlighting the potential for further advancements in this area.
- Abstract(参考訳): 継続的学習は、モデルが学習したデータのパフォーマンスを損なうことなく、新しいデータセットに適応できるようにすることを目的としている。
しかし、多くの実践シナリオでは、古いデータと新しいデータの両方がアクセス可能である。
このような場合、両方のデータセットでの優れたパフォーマンスは、通常、以前のデータでトレーニングされたモデルを放棄し、両方のデータセットでスクラッチから新しいモデルを再トレーニングすることで達成される。
このスクラッチからのトレーニングは計算に費用がかかる。
対照的に、以前に訓練されたモデルと古いデータを活用する手法は、計算コストを大幅に削減できるため、調査に値する。
評価フレームワークは,これらの手法をスクラッチからトレーニング性能を維持したり,超えたりしながら,計算的貯蓄量を定量化する。
我々は、初期化、正規化、データ選択、ハイパーパラメータといった主要な最適化の側面を特定し、それぞれが計算コストの削減に貢献します。
それぞれの側面において,計算量を大幅に削減できる効果的な第1ステップ法を提案する。
これらの手法を組み合わせることで、様々なコンピュータビジョンタスクにおける計算時間の最大2.7倍の削減を実現し、この分野のさらなる進歩の可能性を強調した。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning [0.15833270109954137]
トレーニングデータセットのサイズを減らすために、最大8つの異なる方法を提示します。
また、それらを適用するPythonパッケージも開発しています。
これらのデータ削減手法がデータセットの表現性に与える影響を実験的に比較した。
論文 参考訳(メタデータ) (2024-03-22T12:06:40Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。