論文の概要: Alchemist: Towards the Design of Efficient Online Continual Learning System
- arxiv url: http://arxiv.org/abs/2503.01066v1
- Date: Mon, 03 Mar 2025 00:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:44.047618
- Title: Alchemist: Towards the Design of Efficient Online Continual Learning System
- Title(参考訳): Alchemist: 効果的なオンライン連続学習システムの設計に向けて
- Authors: Yuyang Huang, Yuhan Liu, Haryadi S. Gunawi, Beibin Li, Changho Hwang,
- Abstract要約: Alchemistは、サービス中に計算された中間結果を効率的に再利用するオンライン連続学習システムである。
トレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
- 参考スコア(独自算出の注目度): 15.224901317189728
- License:
- Abstract: Continual learning has emerged as a promising solution to refine models incrementally by leveraging user feedback, thereby enhancing model performance in applications like code completion, personal assistants, and chat interfaces. In particular, online continual learning - iteratively training the model with small batches of user feedback - has demonstrated notable performance improvements. However, the existing practice of segregating training and serving processes forces the online trainer to recompute the intermediate results already done during serving. Such redundant computations can account for 30%-42% of total training time. In this paper, we propose Alchemist, to the best of our knowledge, the first online continual learning system that efficiently reuses intermediate results computed during serving to reduce redundant computation with minimal impact on the serving latency or capacity. Alchemist introduces two key techniques: (1) minimal activations recording and saving during serving, where activations are recorded and saved only during the prefill phase to minimize overhead; and (2) offloading of serving activations, which dynamically manages GPU memory by freeing activations in the forward order, while reloading them in the backward order during the backward pass. Evaluations with the ShareGPT dataset show that compared with a separate training cluster, Alchemist significantly increases training throughput by up to 1.72x, reduces up to 47% memory usage during training, and supports up to 2x more training tokens - all while maintaining negligible impact on serving latency.
- Abstract(参考訳): 継続的な学習は、ユーザのフィードバックを活用してモデルを段階的に洗練し、コード補完やパーソナルアシスタント、チャットインターフェースといったアプリケーションにおけるモデルパフォーマンスを向上させる、有望なソリューションとして現れています。
特に、オンライン連続学習 — 少数のユーザフィードバックでモデルを反復的にトレーニングする — は、顕著なパフォーマンス改善を示している。
しかし、既存のトレーニングとサービスプロセスの分離は、オンライントレーナーに、サービス期間中に既に実行された中間結果を再計算させるよう強制する。
このような冗長な計算は、トレーニング時間の30%-42%を占める。
本稿では,提案するAlchemist(Alchemist)について,サービス中の計算結果を効率よく再利用し,サービス待ち時間やキャパシティへの影響を最小限に抑えるオンライン連続学習システムである。
アルケミストは、(1)プリフィル段階でのみアクティベーションを記録・保存し、オーバーヘッドを最小限に抑えるためのサービスアクティベーションを記録・保存する最小限のアクティベーションと、(2)バックワードパス中の後方順にリロードしながら、前方順でアクティベーションを解放することで、GPUメモリを動的に管理するサービスアクティベーションのオフロードの2つの主要なテクニックを紹介した。
ShareGPTデータセットによる評価によると、別のトレーニングクラスタと比較して、Alchemistはトレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
関連論文リスト
- FFCL: Forward-Forward Net with Cortical Loops, Training and Inference on Edge Without Backpropagation [2.690915052535259]
Forward-Forward Learning (FFL)アルゴリズムは、メモリ集約的なバックプロパゲーションを必要とせずにニューラルネットワークをトレーニングするための提案されたソリューションである。
以下の貢献でFFLを強化します。
論文 参考訳(メタデータ) (2024-05-21T01:39:11Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Task-oriented Memory-efficient Pruning-Adapter [3.0751447761822903]
本稿では,トレーニングとメモリの高メモリ効率を実現するタスク指向のPruning-Adapter法を提案する。
GLUEタスクの精度は大幅に低下せず、同時にトレーニングと推論の効率が向上した。
論文 参考訳(メタデータ) (2023-03-26T12:18:00Z) - Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores [4.774170751209782]
我々は、転送学習(TL)に着目して、MLトレーニングがストレージのプッシュダウンにどう影響するかを示す。
本稿では,分解に伴う課題に対処する2つの補完技術を中心に,新たなTL処理システムであるHAPIを提案する。
論文 参考訳(メタデータ) (2022-10-16T22:28:36Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。