論文の概要: HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2504.17449v1
- Date: Thu, 24 Apr 2025 11:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.341949
- Title: HMI: Hierarchical Knowledge Management for Efficient Multi-Tenant Inference in Pretrained Language Models
- Title(参考訳): HMI:事前訓練された言語モデルにおける効率的なマルチテナント推論のための階層的知識管理
- Authors: Jun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Gang Chen, Qin Xie, Guiming Xie, Xuejian Gong,
- Abstract要約: 階層的知識管理に基づくマルチテナント推論システムであるHMIを紹介する。
PLMの知識は、一般、ドメイン特化、タスク特化に分類される。
階層型PLM(hPLM)を,異なるレベルで知識を抽出,保存することにより構築し,テナント当たりのGPUメモリ使用量を大幅に削減する。
- 参考スコア(独自算出の注目度): 21.608297519414236
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The significant computational demands of pretrained language models (PLMs), which often require dedicated hardware, present a substantial challenge in serving them efficiently, especially in multi-tenant environments. To address this, we introduce HMI, a Hierarchical knowledge management-based Multi-tenant Inference system, designed to manage tenants with distinct PLMs resource-efficiently. Our approach is three-fold: Firstly, we categorize PLM knowledge into general, domain-specific, and task-specific. Leveraging insights on knowledge acquisition across different model layers, we construct hierarchical PLMs (hPLMs) by extracting and storing knowledge at different levels, significantly reducing GPU memory usage per tenant. Secondly, we establish hierarchical knowledge management for hPLMs generated by various tenants in HMI. We manage domain-specific knowledge with acceptable storage increases by constructing and updating domain-specific knowledge trees based on frequency. We manage task-specific knowledge within limited GPU memory through parameter swapping. Finally, we propose system optimizations to enhance resource utilization and inference throughput. These include fine-grained pipelining via hierarchical knowledge prefetching to overlap CPU and I/O operations with GPU computations, and optimizing parallel implementations with batched matrix multiplications. Our experimental results demonstrate that the proposed HMI can efficiently serve up to 10,000 hPLMs (hBERTs and hGPTs) on a single GPU, with only a negligible compromise in accuracy.
- Abstract(参考訳): 専用のハードウェアを必要とするプレトレーニング言語モデル(PLM)のかなりの計算要求は、特にマルチテナント環境において、それらを効率的に提供する上で大きな課題となる。
これを解決するために,階層型知識管理に基づくマルチテナント推論システムであるHMIを導入する。
まず、PLMの知識を一般、ドメイン固有、タスク固有に分類する。
異なるモデル層にまたがる知識獲得の洞察を活用し、異なるレベルで知識を抽出・保存することで階層型PLM(hPLM)を構築し、テナント当たりのGPUメモリ使用量を大幅に削減する。
第2に、HMIの様々なテナントによって生成されるhPLMの階層的知識管理を確立する。
ドメイン固有の知識ツリーを周波数に基づいて構築・更新することで、ドメイン固有の知識を許容範囲のストレージ増加で管理する。
パラメータスワップにより,限られたGPUメモリ内でタスク固有の知識を管理する。
最後に,資源利用量と推論スループットを向上させるシステム最適化を提案する。
その中には、CPUとI/O操作をGPU計算で重複させる階層的な知識による微粒化パイプライニング、バッチ行列乗算による並列実装の最適化などが含まれる。
実験の結果,提案したHMIは1つのGPU上で最大1万hPLM(hBERT,hGPT)を効率よく処理できることがわかった。
関連論文リスト
- Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - SG-MIM: Structured Knowledge Guided Efficient Pre-training for Dense Prediction [17.44991827937427]
マスク付き画像モデリング技術はコンピュータビジョンの景観を再定義した。
その成功にもかかわらず、密集予測タスク、特に深度推定におけるMIMベースの手法の可能性は未解決のままである。
SG-MIM(Structured Knowledge Guided Masked Image Modeling framework)を提案する。
論文 参考訳(メタデータ) (2024-09-04T08:24:53Z) - Multi-domain Knowledge Graph Collaborative Pre-training and Prompt Tuning for Diverse Downstream Tasks [48.102084345907095]
知識グラフ事前学習(KGP)は、大規模知識グラフ(KG)上でニューラルネットワークを事前訓練することを目的としている
MuDoKは、異なる下流タスクバックボーンに適応可能な、プラグインとプレイのプロンプト学習アプローチである。
私たちのフレームワークは、その汎用性、効率性、転送可能性とともに、大幅なパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-05-21T08:22:14Z) - KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning
over Knowledge Graph [134.8631016845467]
我々は、KG-Agentと呼ばれる自律LLMベースのエージェントフレームワークを提案する。
KG-Agentでは、LLM、多機能ツールボックス、KGベースのエグゼキュータ、知識メモリを統合する。
有効性を保証するため、プログラム言語を利用してKG上のマルチホップ推論プロセスを定式化する。
論文 参考訳(メタデータ) (2024-02-17T02:07:49Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。