論文の概要: Stratos: An End-to-End Distillation Pipeline for Customized LLMs under Distributed Cloud Environments
- arxiv url: http://arxiv.org/abs/2510.15992v1
- Date: Tue, 14 Oct 2025 03:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.756552
- Title: Stratos: An End-to-End Distillation Pipeline for Customized LLMs under Distributed Cloud Environments
- Title(参考訳): Stratos: 分散クラウド環境下でのカスタマイズLDMのためのエンドツーエンド蒸留パイプライン
- Authors: Ziming Dai, Tuo Zhang, Fei Gao, Xingyi Cai, Xiaofei Wang, Cheng Zhang, Wenyu Wang, Chengjie Zang,
- Abstract要約: サーバとモデルの選択,知識蒸留,分散クラウド環境への展開を自動化する,エンドツーエンドのLCM蒸留パイプラインであるStratosを提案する。
実験の結果,Stratosは,逆合成データと知識注入を用いたドメイン固有のMahjong推論タスクに基づいて,GPT-4o教師ベースラインの4倍の精度で学生モデルを生成することがわかった。
- 参考スコア(独自算出の注目度): 22.655943730255434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing industrial demand for customized and cost-efficient large language models (LLMs) is fueled by the rise of vertical, domain-specific tasks and the need to optimize performance under constraints such as latency and budget. Knowledge distillation, as an efficient model compression and transfer technique, offers a feasible solution. However, existing distillation frameworks often require manual intervention and struggle to meet such complex user-defined distillation requirements. To bridge this gap, we propose Stratos, an end-to-end LLM distillation pipeline that automates server and model selection, knowledge distillation, and deployment in distributed cloud environments. Given user-defined constraints on model performance and system budget, Stratos automatically selects Pareto-optimal servers, dynamically matches teacher-student pairs, and adapts distillation strategies based on task complexity to optimize cloud hosting. Experiments show that Stratos produces a student model that achieves four times the accuracy of its GPT-4o teacher baseline on a rare, domain-specific Mahjong reasoning task with reverse synthetic data and knowledge injection. Moreover, it achieves reduced latency and cost without compromising accuracy. These results highlight its promise for vertical-domain LLM deployment.
- Abstract(参考訳): カスタマイズされたコスト効率の高い大規模言語モデル(LLM)の産業需要の増加は、垂直かつドメイン固有のタスクの台頭と、レイテンシや予算といった制約下でのパフォーマンスを最適化する必要性によって加速されている。
効率的なモデル圧縮・転写技術としての知識蒸留は、実現可能なソリューションを提供する。
しかし、既存の蒸留フレームワークは、しばしば手動による介入を必要とし、そのような複雑なユーザ定義の蒸留要求を満たすのに苦労する。
このギャップを埋めるため,サーバとモデルの選択,知識の蒸留,分散クラウド環境への展開を自動化する,エンドツーエンドのLCM蒸留パイプラインであるStratosを提案する。
モデルパフォーマンスとシステム予算に関するユーザ定義の制約を前提として、Stratosは自動的にPareto-Optimalサーバを選択し、教師と学生のペアを動的にマッチングし、タスクの複雑さに基づいた蒸留戦略を適用してクラウドホスティングを最適化する。
実験の結果,Stratosは,逆合成データと知識注入を用いたドメイン固有のMahjong推論タスクに基づいて,GPT-4o教師ベースラインの4倍の精度で学生モデルを生成することがわかった。
さらに、精度を損なうことなく、レイテンシとコストの低減を実現する。
これらの結果は、垂直ドメイン LLM デプロイメントの約束を浮き彫りにする。
関連論文リスト
- PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs [23.253571170594455]
大規模言語モデル(LLM)は、非常に高度な人工知能を持つ。
本稿では,3段階の低コストエンドツーエンドLCMデプロイメントパイプラインを提案する。
性能が向上し、コストが削減された超小型オンラインモデルを生産する。
論文 参考訳(メタデータ) (2025-04-18T05:25:22Z) - Efficient Point Cloud Classification via Offline Distillation Framework and Negative-Weight Self-Distillation Technique [46.266960248570086]
本稿では,教師モデルと生徒モデルの両方の同時ロードを回避する,革新的なオフライン記録戦略を提案する。
このアプローチは教師モデルに多数の追加サンプルを投入し、データ拡張パラメータと対応するロジット出力の両方を記録する。
実験により, 提案した蒸留方式により, 学生モデルが最先端モデルに匹敵する性能を達成できることが実証された。
論文 参考訳(メタデータ) (2024-09-03T16:12:12Z) - FedHPL: Efficient Heterogeneous Federated Learning with Prompt Tuning and Logit Distillation [32.305134875959226]
フェデレートラーニング(FL)は、分散クライアントが中央サーバーでモデルを協調訓練できるプライバシー保護パラダイムである。
我々はパラメータ効率の高い$textbfFed$erated Learning framework for $textbfH$eterogeneous settingsを提案する。
我々のフレームワークは最先端のFLアプローチより優れており、オーバーヘッドもトレーニングラウンドも少なくなっている。
論文 参考訳(メタデータ) (2024-05-27T15:25:32Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。