論文の概要: Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques
- arxiv url: http://arxiv.org/abs/2505.02309v2
- Date: Thu, 08 May 2025 05:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.801655
- Title: Optimizing LLMs for Resource-Constrained Environments: A Survey of Model Compression Techniques
- Title(参考訳): 資源制約環境におけるLLMの最適化:モデル圧縮技術に関する調査
- Authors: Sanjay Surendranath Girija, Shashank Kapoor, Lakshit Arora, Dipen Pradhan, Aman Raj, Ankit Shetgaonkar,
- Abstract要約: 大規模言語モデル(LLM)は、人工知能(AI)の多くの領域に革命をもたらしたが、その相当なリソース要件は、モバイルおよびエッジデバイスへのデプロイメントを制限する。
本稿では,資源制約環境下での効率的な推論を実現するため,LLMの圧縮技術について概観する。
- 参考スコア(独自算出の注目度): 1.4513830934124627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized many areas of artificial intelligence (AI), but their substantial resource requirements limit their deployment on mobile and edge devices. This survey paper provides a comprehensive overview of techniques for compressing LLMs to enable efficient inference in resource-constrained environments. We examine three primary approaches: Knowledge Distillation, Model Quantization, and Model Pruning. For each technique, we discuss the underlying principles, present different variants, and provide examples of successful applications. We also briefly discuss complementary techniques such as mixture-of-experts and early-exit strategies. Finally, we highlight promising future directions, aiming to provide a valuable resource for both researchers and practitioners seeking to optimize LLMs for edge deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能(AI)の多くの領域に革命をもたらしたが、その相当なリソース要件は、モバイルおよびエッジデバイスへのデプロイメントを制限する。
本稿では,資源制約環境下での効率的な推論を実現するため,LLMの圧縮技術について概観する。
本稿では, 知識蒸留, モデル量子化, モデルプランニングの3つの主要なアプローチについて検討する。
それぞれの技術について、基礎となる原則について議論し、異なる変種を提示し、成功したアプリケーションの例を示す。
また,実験の混合や早期終了戦略などの補完的手法についても簡潔に論じる。
最後に、将来有望な方向性を強調し、エッジデプロイメントのためにLLMを最適化しようとする研究者と実践者の両方に貴重なリソースを提供することを目的としている。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models [32.774929826684854]
LLM(Large Language Models)は、計算、メモリ、エネルギー、金融資源の高消費に課題をもたらす。
本調査は, LLMの資源効率向上を目的とした多種多様な手法を概観することにより, これらの課題を体系的に解決することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T01:12:42Z) - A Survey on Model Compression for Large Language Models [21.768293256849113]
大規模言語モデル(LLM)は自然言語処理タスクをうまく変換した。
しかし、その大きなサイズと高い計算要求は、実用上の課題を提起する。
モデル圧縮はこれらの課題に対処するための重要な研究領域として浮上している。
論文 参考訳(メタデータ) (2023-08-15T08:31:05Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。