論文の概要: Making MoE based LLM inference resilient with Tarragon
- arxiv url: http://arxiv.org/abs/2601.01310v1
- Date: Sun, 04 Jan 2026 00:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.185168
- Title: Making MoE based LLM inference resilient with Tarragon
- Title(参考訳): タラゴンを用いたMoEを用いたLLM推論
- Authors: Songyu Zhang, Aaron Tam, Myungjin Lee, Shixiong Qi, K. K. Ramakrishnan,
- Abstract要約: Tarragonは回復力のあるMoE推論フレームワークで、個々のワーカーへの影響を抑えつつ、パイプラインの残りの部分を前進させる。
Tarragonは、MoEベースのトランスフォーマーにおける注意と専門家の計算を自然に分離し、注意労働者(AW)と専門家労働者(EW)を異なる障害領域として扱う。
現状のメガスケール・インファーと比較して,タラゴンは故障によるストールを160~213倍削減する。
- 参考スコア(独自算出の注目度): 8.038572822085065
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) models are increasingly used to serve LLMs at scale, but failures become common as deployment scale grows. Existing systems exhibit poor failure resilience: even a single worker failure triggers a coarse-grained, service-wide restart, discarding accumulated progress and halting the entire inference pipeline during recovery--an approach clearly ill-suited for latency-sensitive, LLM services. We present Tarragon, a resilient MoE inference framework that confines the failures impact to individual workers while allowing the rest of the pipeline to continue making forward progress. Tarragon exploits the natural separation between the attention and expert computation in MoE-based transformers, treating attention workers (AWs) and expert workers (EWs) as distinct failure domains. Tarragon introduces a reconfigurable datapath to mask failures by rerouting requests to healthy workers. On top of this datapath, Tarragon implements a self-healing mechanism that relaxes the tightly synchronized execution of existing MoE frameworks. For stateful AWs, Tarragon performs asynchronous, incremental KV cache checkpointing with per-request restoration, and for stateless EWs, it leverages residual GPU memory to deploy shadow experts. These together keep recovery cost and recomputation overhead extremely low. Our evaluation shows that, compared to state-of-the-art MegaScale-Infer, Tarragon reduces failure-induced stalls by 160-213x (from ~64 s down to 0.3-0.4 s) while preserving performance when no failures occur.
- Abstract(参考訳): Mixture-of-Experts(MoE)モデルは、大規模にLLMを提供するためにますます使われていますが、デプロイメントの規模が大きくなるにつれて、障害は一般的になります。
単一ワーカの障害でさえ、粗大でサービス全体の再起動をトリガーし、累積的な進捗を破棄し、リカバリ時に推論パイプライン全体を停止する — レイテンシに敏感なLLMサービスに明らかに適さないアプローチである。
Tarragonは回復力のあるMoE推論フレームワークで、個々のワーカーへの影響を抑えつつ、パイプラインの残りの部分を前進させ続けます。
Tarragonは、MoEベースのトランスフォーマーにおけるアテンションとエキスパート計算の自然な分離を利用して、アテンションワーカー(AW)とエキスパートワーカー(EW)を異なる障害ドメインとして扱う。
Tarragonは、正常なワーカーへのリクエストを再ルーティングすることで、障害をマスクするための再構成可能なデータパスを導入している。
このデータパスの上にTarragonは、既存のMoEフレームワークの厳密な同期実行を緩和する自己修復メカニズムを実装している。
ステートフルなAWでは、Tarragonは、リクエスト毎の復元を伴う非同期でインクリメンタルなKVキャッシュチェックポイントを実行し、ステートレスなEWでは、残留GPUメモリを活用してシャドウエキスパートをデプロイする。
これらは、回復コストと再計算オーバーヘッドを極端に低く保つ。
現状のメガスケール・インファーと比較して,タラゴンは故障発生時の性能を維持しつつ,故障発生時のストールを160~213倍(約64秒から0.3~0.4秒)削減する。
関連論文リスト
- ELLA: Efficient Lifelong Learning for Adapters in Large Language Models [12.489255789379817]
大規模言語モデル(LLM)は、連続的な学習環境において、新しいタスクに逐次適応する際、深刻な破滅的な忘れを被る。
本稿では,選択部分空間デコリレーションの原理に基づくトレーニングフレームワークであるELLAを紹介する。
ELLAは、過去の更新の構造を明示的に特徴づけ、高エネルギーでタスク固有の方向に沿ってアライメントを罰する。
3つの人気のあるベンチマークで最先端のCL性能を達成し、相対的精度は9.6%、メモリフットプリントは35倍になる。
論文 参考訳(メタデータ) (2026-01-05T15:58:08Z) - Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning [61.380634253724594]
次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整
自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
論文 参考訳(メタデータ) (2025-12-23T18:51:50Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Leave it to the Specialist: Repair Sparse LLMs with Sparse Fine-Tuning via Sparsity Evolution [37.437830302067326]
Sparsity Evolution Fine-Tuning (SEFT)は、疎大言語モデル(LLM)に特化して設計された新しい手法である。
SEFTは、微調整中に細粒化されたモデルのスパーストポロジーを動的に進化させ、プロセス全体にわたって全体空間を保存する。
各種LLM実験の結果,SEFTは既存のベースラインに比べてメモリ効率と時間効率が優れており,性能が向上することが示された。
論文 参考訳(メタデータ) (2025-05-29T22:17:43Z) - Tensor Train Low-rank Approximation (TT-LoRA): Democratizing AI with Accelerated LLMs [1.5503410315996757]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著な機能を示している。
しかし、LLMの複雑さはますます増大し、膨大な計算資源を必要としている。
本稿では,新しいパラメータ効率細調整(PEFT)手法であるTrain Low-Rank Approximation (TT-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-08-02T04:45:58Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models [39.860441918723]
大規模言語モデル(LLM)の弾力性と弾力性を備えたトレーニングシステムであるLazarusについて述べる。
Lazarusはエキスパートのレプリカを適応的に割り当てて、専門家のワークロードの固有の不均衡に対処し、トレーニングをスピードアップする。
評価の結果、Lazarusはノード障害の頻度で5.7倍、実際のインスタンストレースで3.4倍、既存のMoEトレーニングシステムよりも優れていた。
論文 参考訳(メタデータ) (2024-07-05T17:13:41Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。