論文の概要: Alchemist: Towards the Design of Efficient Online Continual Learning System
- arxiv url: http://arxiv.org/abs/2503.01066v2
- Date: Fri, 14 Mar 2025 16:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 15:33:20.483305
- Title: Alchemist: Towards the Design of Efficient Online Continual Learning System
- Title(参考訳): Alchemist: 効果的なオンライン連続学習システムの設計に向けて
- Authors: Yuyang Huang, Yuhan Liu, Haryadi S. Gunawi, Beibin Li, Changho Hwang,
- Abstract要約: 我々はAlchemistを提案し、私たちの知る限り、トレーニングスループットを向上させるためにサービス活性化を効率的に再利用する最初のオンライン連続学習システムを提案する。
Alchemyはトレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
- 参考スコア(独自算出の注目度): 15.224901317189728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning has become a promising solution to refine large language models incrementally by leveraging user feedback. In particular, online continual learning - iteratively training the model with small batches of user feedback - has demonstrated notable performance improvements. However, the existing practice of separating training and serving processes forces the online trainer to recompute the intermediate results already done during serving. Such redundant computations can account for 30%-42% of total training time. In this paper, we propose Alchemist, to the best of our knowledge, the first online continual learning system that efficiently reuses serving activations to increase training throughput. Alchemist introduces two key techniques: (1) recording and storing activations and KV cache only during the prefill phase to minimize latency and memory overhead; and (2) smart activation offloading and hedging. Evaluations with inputs of varied token length sampled from ShareGPT dataset show that compared with a separate training cluster, Alchemist significantly increases training throughput by up to 1.72x, reduces up to 47% memory usage during training, and supports up to 2x more training tokens - all while maintaining negligible impact on serving latency.
- Abstract(参考訳): 継続的な学習は、ユーザフィードバックを活用することで、大きな言語モデルを漸進的に洗練するための有望なソリューションになっています。
特に、オンライン連続学習 — 少数のユーザフィードバックでモデルを反復的にトレーニングする — は、顕著なパフォーマンス改善を示している。
しかし、既存のトレーニングとサービスプロセスの分離作業では、オンライントレーナーは、サービス期間中に既に実行された中間結果を再計算せざるを得ない。
このような冗長な計算は、トレーニング時間の30%-42%を占める。
本稿では,サービスアクティベーションを効率的に再利用し,トレーニングスループットを向上させるオンライン連続学習システムであるAlchemistを提案する。
Alchemistは、(1)アクティベーションの記録と保存、(2)アクティベーションのオフロードとヘッジを最小化するために、プリフィルフェーズでのみKVキャッシュを使用する。
ShareGPTデータセットからサンプリングされたさまざまなトークン長の入力による評価によると、トレーニングクラスタを別途比較すると、Alchemistはトレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
関連論文リスト
- HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
本稿では,HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを提案する。
SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。
また、画像品質とキャッシュ利用のバランスをとるために、イメージエラープロキシガイドオブジェクト(IEPO)も組み込まれている。
論文 参考訳(メタデータ) (2024-10-02T16:34:29Z) - Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.70522244144088]
AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。
Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。
ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
論文 参考訳(メタデータ) (2024-07-15T11:26:07Z) - ProTrain: Efficient LLM Training via Memory-Aware Techniques [18.30799115938978]
本稿では,メモリ,計算,IOの調整によってメモリ使用量と性能のバランスをとる新しいトレーニングシステムであるProTrainを提案する。
ProTrainは、SOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$times$から2.71$timesに改善する。
論文 参考訳(メタデータ) (2024-06-12T15:40:06Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Task-oriented Memory-efficient Pruning-Adapter [3.0751447761822903]
本稿では,トレーニングとメモリの高メモリ効率を実現するタスク指向のPruning-Adapter法を提案する。
GLUEタスクの精度は大幅に低下せず、同時にトレーニングと推論の効率が向上した。
論文 参考訳(メタデータ) (2023-03-26T12:18:00Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores [4.774170751209782]
我々は、転送学習(TL)に着目して、MLトレーニングがストレージのプッシュダウンにどう影響するかを示す。
本稿では,分解に伴う課題に対処する2つの補完技術を中心に,新たなTL処理システムであるHAPIを提案する。
論文 参考訳(メタデータ) (2022-10-16T22:28:36Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。