Fugu-MT 論文翻訳(概要): Contemporary Model Compression on Large Language Models Inference

論文の概要: Contemporary Model Compression on Large Language Models Inference

arxiv url: http://arxiv.org/abs/2409.01990v1
Date: Tue, 3 Sep 2024 15:35:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 00:50:24.715093
Title: Contemporary Model Compression on Large Language Models Inference
Title（参考訳）: 大規模言語モデル推論における現代モデル圧縮
Authors: Dong Liu,
Abstract要約: 大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。 LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
参考スコア（独自算出の注目度）: 7.307436175842646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have revolutionized natural language processing by achieving state-of-the-art results across a variety of tasks. However, the computational demands of LLM inference, including high memory consumption and slow processing speeds, pose significant challenges for real-world applications, particularly on resource-constrained devices. Efficient inference is crucial for scaling the deployment of LLMs to a broader range of platforms, including mobile and edge devices. This survey explores contemporary techniques in model compression that address these challenges by reducing the size and computational requirements of LLMs while maintaining their performance. We focus on model-level compression methods, including quantization, knowledge distillation, and pruning, as well as system-level optimizations like KV cache efficient design. Each of these methodologies offers a unique approach to optimizing LLMs, from reducing numerical precision to transferring knowledge between models and structurally simplifying neural networks. Additionally, we discuss emerging trends in system-level design that further enhance the efficiency of LLM inference. This survey aims to provide a comprehensive overview of current advancements in model compression and their potential to make LLMs more accessible and practical for diverse applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。しかし、高いメモリ消費と遅い処理速度を含むLLM推論の計算要求は、特にリソース制約のあるデバイスにおいて、現実世界のアプリケーションに重大な課題をもたらす。効率的な推論は、モバイルやエッジデバイスを含む幅広いプラットフォームにLLMをデプロイするために不可欠である。本研究は,LLMのサイズと計算要求を低減し,それらの性能を維持しながら,これらの課題に対処するモデル圧縮の現代技術について検討する。我々は、量子化、知識蒸留、プルーニングを含むモデルレベルの圧縮手法と、KVキャッシュの効率的な設計のようなシステムレベルの最適化に焦点を当てる。それぞれの手法は、数値的精度の低下からモデル間の知識の伝達、ニューラルネットワークの構造的単純化に至るまで、LLMを最適化するためのユニークなアプローチを提供する。さらに、LLM推論の効率をさらに高めるシステムレベルの設計における新たなトレンドについて論じる。本調査は, モデル圧縮の最近の進歩と, LLMを多種多様なアプリケーションに対して, よりアクセスしやすく, 実用的なものにする可能性について概説することを目的としている。

関連論文リスト

Estimating the Effects of Sample Training Orders for Large Language Models without Retraining [49.59675538160363]
大規模言語モデル(LLM)において,サンプルの訓練順序が重要な役割を担っている従来の手法では、様々なサンプル順序でモデルを再訓練する必要がある。リトレーニングフリーのフレームワークを設計することで従来の手法を改善します。
論文参考訳（メタデータ） (2025-05-28T07:07:02Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud [12.651588927599441]
モデル微調整の効率を大幅に向上するために,データ拡張モデル群を提案する。これらのモデルは十分に小さなLLMに基づいて訓練され、推論コストの低い重要な機能をサポートする。実験と応用研究は、我々のアプローチの有効性を証明した。
論文参考訳（メタデータ） (2024-12-06T09:04:12Z)
eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文参考訳（メタデータ） (2024-11-24T22:50:02Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms [34.818641985348805]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。しかし、高価なメモリと計算の要求は、その実践的な展開に重大な課題をもたらしている。低ビット量子化は、モデルパラメータのビット幅を減らすことでこれらの課題を緩和するための重要なアプローチとして現れている。
論文参考訳（メタデータ） (2024-09-25T07:38:02Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
Pooling And Attention: What Are Effective Designs For LLM-Based Embedding Models? [18.990655668481075]
我々は,最後の層だけでなく,すべての隠蔽層の出力を横断的ネットワークを用いて変換する,新しいプーリング戦略であるMulti-Layers Trainable Poolingを提案する。本稿では,LLMをベースとした埋め込みモデルの効果的なトレーニング戦略について述べる。
論文参考訳（メタデータ） (2024-09-04T14:01:48Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
New Solutions on LLM Acceleration, Optimization, and Application [14.995654657013741]
大規模言語モデル (LLM) は、様々な応用において人間のような文章を解釈・生成する能力を持つ非常に強力な機器となっている。しかし、LLMのサイズと複雑さの増大は、トレーニングとデプロイメントの両方において大きな課題をもたらしている。これらの課題に対処するための最近の進歩と研究の方向性について概観する。
論文参考訳（メタデータ） (2024-06-16T11:56:50Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Understanding LLMs: A Comprehensive Overview from Training to Inference [52.70748499554532]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文参考訳（メタデータ） (2024-01-04T02:43:57Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
A Survey on Model Compression for Large Language Models [21.768293256849113]
大規模言語モデル(LLM)は自然言語処理タスクをうまく変換した。しかし、その大きなサイズと高い計算要求は、実用上の課題を提起する。モデル圧縮はこれらの課題に対処するための重要な研究領域として浮上している。
論文参考訳（メタデータ） (2023-08-15T08:31:05Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。