論文の概要: Efficient AI in Practice: Training and Deployment of Efficient LLMs for Industry Applications
- arxiv url: http://arxiv.org/abs/2502.14305v1
- Date: Thu, 20 Feb 2025 06:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:24.080213
- Title: Efficient AI in Practice: Training and Deployment of Efficient LLMs for Industry Applications
- Title(参考訳): 実践における効率的なAI: 産業アプリケーションのための効率的なLLMの訓練と展開
- Authors: Kayhan Behdin, Yun Dai, Ata Fatahibaarzi, Aman Gupta, Qingquan Song, Shao Tang, Hejian Sang, Gregory Dexter, Sirou Zhu, Siyu Zhu, Tejas Dharamsi, Maziar Sanjabi, Vignesh Kothapalli, Hamed Firooz, Zhoutong Fu, Yihan Cao, Pin-Lun Hsu, Fedor Borisyuk, Zhipeng Wang, Rahul Mazumder, Natesh Pillai, Luke Simon,
- Abstract要約: 本稿では,SLM(Small Language Model)を訓練する手法と知見について述べる。
本研究では,(1) 知識蒸留と(2) 量子化とプルーニングによるモデル圧縮の2つの重要な技術に焦点をあてる。
大規模なプロフェッショナルなソーシャルネットワークプラットフォームにおけるさまざまなユースケースに対するこれらのテクニックの影響を詳述し、デプロイメントのレッスンを共有します。
- 参考スコア(独自算出の注目度): 22.053978157017877
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across a wide range of industrial applications, from search and recommendations to generative tasks. Although scaling laws indicate that larger models generally yield better generalization and performance, their substantial computational requirements often render them impractical for many real-world scenarios at scale. In this paper, we present methods and insights for training small language models (SLMs) that deliver high performance and efficiency in deployment. We focus on two key techniques: (1) knowledge distillation and (2) model compression via quantization and pruning. These approaches enable SLMs to retain much of the quality of their larger counterparts while significantly reducing training, serving costs, and latency. We detail the impact of these techniques on a variety of use cases at a large professional social network platform and share deployment lessons - including hardware optimization strategies that enhance speed and throughput for both predictive and reasoning-based applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索やレコメンデーションから生成タスクに至るまで、幅広い産業応用において顕著な性能を示している。
スケーリング法則は、大きめのモデルが一般的により優れた一般化と性能をもたらすことを示しているが、その相当な計算要求は、大規模に多くの現実のシナリオでそれらを非現実的にすることが多い。
本稿では,SLM(Small Language Model)を訓練する手法と知見について述べる。
本研究では,(1) 知識蒸留と(2) 量子化とプルーニングによるモデル圧縮の2つの重要な技術に焦点をあてる。
これらのアプローチにより、SLMはより大きなものの品質を保ちながら、トレーニング、サービスコスト、レイテンシを大幅に削減できる。
これらのテクニックが、大規模なプロフェッショナルなソーシャルネットワークプラットフォームにおけるさまざまなユースケースに与える影響を詳述するとともに、予測および推論ベースのアプリケーションのスピードとスループットを向上させるハードウェア最適化戦略を含む、デプロイメントのレッスンを共有します。
関連論文リスト
- Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。
低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。
本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文 参考訳(メタデータ) (2025-01-23T02:14:08Z) - Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training [29.44470664154098]
ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効果的なスケーリングに重要であることを示す。
我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
論文 参考訳(メタデータ) (2024-11-20T06:05:11Z) - A Comprehensive Study on Quantization Techniques for Large Language Models [0.0]
大規模言語モデル(LLM)は、学術と産業の両方で広く研究され、利用されている。
LLMは、リソースに制約のあるIoTデバイスや組み込みシステムにデプロイする上で、重大な課題を提示している。
量子化(Quantization)は、モデルの値の精度を小さな離散値のセットに縮める技術であり、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-30T04:55:26Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。