Fugu-MT 論文翻訳(概要): Alchemist: Towards the Design of Efficient Online Continual Learning System

論文の概要: Alchemist: Towards the Design of Efficient Online Continual Learning System

arxiv url: http://arxiv.org/abs/2503.01066v1
Date: Mon, 03 Mar 2025 00:14:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.754949
Title: Alchemist: Towards the Design of Efficient Online Continual Learning System
Title（参考訳）: Alchemist: 効果的なオンライン連続学習システムの設計に向けて
Authors: Yuyang Huang, Yuhan Liu, Haryadi S. Gunawi, Beibin Li, Changho Hwang,
Abstract要約: Alchemistは、サービス中に計算された中間結果を効率的に再利用するオンライン連続学習システムである。トレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。
参考スコア（独自算出の注目度）: 15.224901317189728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continual learning has emerged as a promising solution to refine models incrementally by leveraging user feedback, thereby enhancing model performance in applications like code completion, personal assistants, and chat interfaces. In particular, online continual learning - iteratively training the model with small batches of user feedback - has demonstrated notable performance improvements. However, the existing practice of segregating training and serving processes forces the online trainer to recompute the intermediate results already done during serving. Such redundant computations can account for 30%-42% of total training time. In this paper, we propose Alchemist, to the best of our knowledge, the first online continual learning system that efficiently reuses intermediate results computed during serving to reduce redundant computation with minimal impact on the serving latency or capacity. Alchemist introduces two key techniques: (1) minimal activations recording and saving during serving, where activations are recorded and saved only during the prefill phase to minimize overhead; and (2) offloading of serving activations, which dynamically manages GPU memory by freeing activations in the forward order, while reloading them in the backward order during the backward pass. Evaluations with the ShareGPT dataset show that compared with a separate training cluster, Alchemist significantly increases training throughput by up to 1.72x, reduces up to 47% memory usage during training, and supports up to 2x more training tokens - all while maintaining negligible impact on serving latency.
Abstract（参考訳）: 継続的な学習は、ユーザのフィードバックを活用してモデルを段階的に洗練し、コード補完やパーソナルアシスタント、チャットインターフェースといったアプリケーションにおけるモデルパフォーマンスを向上させる、有望なソリューションとして現れています。特に、オンライン連続学習 — 少数のユーザフィードバックでモデルを反復的にトレーニングする — は、顕著なパフォーマンス改善を示している。しかし、既存のトレーニングとサービスプロセスの分離は、オンライントレーナーに、サービス期間中に既に実行された中間結果を再計算させるよう強制する。このような冗長な計算は、トレーニング時間の30%-42%を占める。本稿では,提案するAlchemist(Alchemist)について,サービス中の計算結果を効率よく再利用し,サービス待ち時間やキャパシティへの影響を最小限に抑えるオンライン連続学習システムである。アルケミストは、(1)プリフィル段階でのみアクティベーションを記録・保存し、オーバーヘッドを最小限に抑えるためのサービスアクティベーションを記録・保存する最小限のアクティベーションと、(2)バックワードパス中の後方順にリロードしながら、前方順でアクティベーションを解放することで、GPUメモリを動的に管理するサービスアクティベーションのオフロードの2つの主要なテクニックを紹介した。 ShareGPTデータセットによる評価によると、別のトレーニングクラスタと比較して、Alchemistはトレーニングスループットを最大1.72倍に向上し、トレーニング中に最大47%のメモリ使用量を削減し、最大2倍のトレーニングトークンをサポートする。

関連論文リスト

HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
本稿では,HarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを提案する。 SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。また、画像品質とキャッシュ利用のバランスをとるために、イメージエラープロキシガイドオブジェクト(IEPO)も組み込まれている。
論文参考訳（メタデータ） (2024-10-02T16:34:29Z)
Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.70522244144088]
AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。 Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
論文参考訳（メタデータ） (2024-07-15T11:26:07Z)
ProTrain: Efficient LLM Training via Memory-Aware Techniques [18.30799115938978]
本稿では,メモリ,計算,IOの調整によってメモリ使用量と性能のバランスをとる新しいトレーニングシステムであるProTrainを提案する。 ProTrainは、SOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$times$から2.71$timesに改善する。
論文参考訳（メタデータ） (2024-06-12T15:40:06Z)
Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文参考訳（メタデータ） (2024-02-04T07:49:02Z)
Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-15T11:30:45Z)
Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文参考訳（メタデータ） (2023-03-30T03:22:52Z)
Task-oriented Memory-efficient Pruning-Adapter [3.0751447761822903]
本稿では,トレーニングとメモリの高メモリ効率を実現するタスク指向のPruning-Adapter法を提案する。 GLUEタスクの精度は大幅に低下せず、同時にトレーニングと推論の効率が向上した。
論文参考訳（メタデータ） (2023-03-26T12:18:00Z)
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文参考訳（メタデータ） (2022-11-17T17:38:55Z)
Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores [4.774170751209782]
我々は、転送学習(TL)に着目して、MLトレーニングがストレージのプッシュダウンにどう影響するかを示す。本稿では,分解に伴う課題に対処する2つの補完技術を中心に,新たなTL処理システムであるHAPIを提案する。
論文参考訳（メタデータ） (2022-10-16T22:28:36Z)
DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文参考訳（メタデータ） (2022-08-05T03:15:28Z)
Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文参考訳（メタデータ） (2022-04-02T09:50:19Z)
Recursive Least-Squares Estimator-Aided Online Learning for Visual Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文参考訳（メタデータ） (2021-12-28T06:51:18Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文参考訳（メタデータ） (2021-08-13T06:32:53Z)
Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-06-08T09:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。