論文の概要: Radio: Rate-Distortion Optimization for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2505.03031v1
- Date: Mon, 05 May 2025 21:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.130071
- Title: Radio: Rate-Distortion Optimization for Large Language Model Compression
- Title(参考訳): 大規模言語モデル圧縮のためのレーダ歪み最適化
- Authors: Sean I. Young,
- Abstract要約: 大規模言語モデル(LLM)の圧縮は、リソース制限されたデバイスへのLLM展開を促進する上で重要な問題となっている。
簡単な速度歪み最適化に基づく量子化手法を提案する。
我々の手法は、数十億の重みパラメータを含むモデルにスケールし、ユーザーが指定したモデルサイズや精度にモデルを圧縮する柔軟性を提供する。
- 参考スコア(独自算出の注目度): 6.719003232695071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the compression of large language models (LLMs) has emerged as a key problem in facilitating LLM deployment on resource-limited devices, reducing compute costs, and mitigating the environmental footprint due to large-scale AI infrastructure. Here, we establish the foundations of LLM quantization from a rate-distortion theory perspective and propose a quantization technique based on simple rate-distortion optimization. Our technique scales to models containing hundreds of billions of weight parameters and offers users the flexibility to compress models, post-training, to a model size or accuracy specified by the user.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の圧縮が,リソース制限されたデバイスへのLLM展開の促進,計算コストの削減,大規模AIインフラストラクチャによる環境フットプリントの軽減といった重要な問題として浮上している。
本稿では, LLM量子化の基礎を速度歪理論の観点から確立し, 簡単な速度歪最適化に基づく量子化手法を提案する。
我々の手法は、数十億の重みパラメータを含むモデルにスケールし、ユーザーが指定したモデルサイズや精度にモデルを圧縮する柔軟性を提供する。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Foundations of Large Language Model Compression -- Part 1: Weight Quantization [6.719003232695071]
大規模言語モデル (LLM) の圧縮は,資源制約のあるデバイス上での言語モデルの展開を可能にする重要な問題として浮上している。
最適な量子化結果の基盤となる量子化手法を提案する。
我々のフレームワークCVXQは、数十億の重みパラメータを含むモデルにスケールし、任意の特定のモデルサイズにモデルを圧縮する柔軟性を提供する。
論文 参考訳(メタデータ) (2024-09-03T16:20:22Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - ZooPFL: Exploring Black-box Foundation Models for Personalized Federated
Learning [95.64041188351393]
本稿では,限られた資源とパーソナライゼーションの両課題を解決しようと試みる。
個人化フェデレート学習におけるゼロ階最適化を用いたZOOPFLという手法を提案する。
計算コストの削減とパーソナライゼーションの向上を目的として,低次元およびクライアント固有の埋め込みを持つオートエンコーダを組み込む入力手術を提案する。
論文 参考訳(メタデータ) (2023-10-08T12:26:13Z) - A Model Compression Method with Matrix Product Operators for Speech
Enhancement [15.066942043773267]
本稿では,行列積演算子(MPO)に基づくモデル圧縮手法を提案する。
本稿では,特にクラウドフリーアプリケーションにおいて,音声強調のための効果的なモデル圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-10-10T08:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。