論文の概要: LLM Compression with Jointly Optimizing Architectural and Quantization choices
- arxiv url: http://arxiv.org/abs/2606.04063v1
- Date: Tue, 02 Jun 2026 12:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.280805
- Title: LLM Compression with Jointly Optimizing Architectural and Quantization choices
- Title(参考訳): LLM圧縮によるアーキテクチャと量子化の同時最適化
- Authors: Hoang-Loc La, Truong-Thanh Le, Amir Taherkordi, Phuong Hoai Ha,
- Abstract要約: 大規模言語モデル(LLM)は、メモリと計算の要求が大きいため困難である。
我々は、空間全体を探索し、アーキテクチャ構成を共同で最適化する差別化可能なNASフレームワークを導入します。
我々のモデルは、逐次NAS-then-quantizationベースラインと同等の精度で最大1.4倍高速な推論を達成し、同じレイテンシで7つの推論タスクの平均精度を最大6%向上させる。
- 参考スコア(独自算出の注目度): 1.4857783122641302
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying large language models (LLMs) is challenging due to their significant memory and computational requirements. While some methods address this by developing small or tiny language models from scratch, these approaches demand extensive GPU training. Compressing pre-trained LLMs for edge devices offers a compelling alternative. Beyond pruning and quantization, Neural Architecture Search (NAS) enables effective compression, yet prior NAS approaches often limit the search space and decouple architecture from quantization. We introduce a differentiable NAS framework that explores the entire space and jointly optimizes architectural configurations alongside mixed-precision quantization for linear layers of LLMs. Experiments demonstrate superior accuracy-latency trade-offs: our models achieve up to 1.4x faster inference than sequential NAS-then-quantization baselines at comparable accuracy, or up to 6% higher average accuracy across seven reasoning tasks at equivalent latency.
- Abstract(参考訳): 大きな言語モデル(LLM)のデプロイは、メモリと計算の要求が大きいため困難である。
一部のメソッドは、スクラッチから小さな言語モデルや小さな言語モデルを開発することでこの問題に対処するが、これらのアプローチは広範なGPUトレーニングを必要とする。
エッジデバイス用にトレーニング済みのLLMを圧縮することは、魅力的な代替手段となる。
プルーニングと量子化以外にも、ニューラルネットワークサーチ(NAS)は効果的な圧縮を可能にするが、以前のNASアプローチでは探索空間を制限し、アーキテクチャを量子化から切り離すことが多い。
我々は、空間全体を探索し、LLMの線形層に対する混合精度量子化と共に、アーキテクチャ構成を協調的に最適化する微分可能なNASフレームワークを導入する。
実験は精度-レイテンシのトレードオフが優れており、我々のモデルは逐次NAS-then-quantizationベースラインと同等の精度で最大1.4倍高速な推論を達成するか、同等のレイテンシで7つの推論タスクの平均精度を最大6%向上させる。
関連論文リスト
- Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - Compressing Large Language Models with Automated Sub-Network Search [41.452512557226335]
我々は、下流タスク性能を改善しつつ、モデルサイズの削減を図るため、大規模言語モデルに対するモデル圧縮を検討する。
我々はこれを、構造的コンポーネントを自動生成するニューラルネットワーク探索問題と表現する。
本手法は,11種類のダウンストリームタスクに対して平均9.85%の改善を実現し,デバイス上でのレイテンシを最大22%改善する。
論文 参考訳(メタデータ) (2024-10-09T02:14:39Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models [3.4070166891274263]
大規模言語モデル(LLM)は、自然言語処理、複雑な推論、感情分析、その他のタスクを解決する。
これらの能力はメモリと計算コストが非常に高く、ほとんどのハードウェアプラットフォームでのLLMの使用を妨げている。
ワンショットNASを用いたLLaMA2-7Bに基づくパレート最適ネットワークアーキテクチャの探索手法を提案する。
特定の標準ベンチマークタスクに対して、事前訓練されたLLaMA2-7Bネットワークは不要に大きく、複雑であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:20:44Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Lightweight Neural Architecture Search for Temporal Convolutional
Networks at the Edge [21.72253397805102]
この研究は特に、時系列処理のための畳み込みモデルであるTCN(Temporal Convolutional Networks)に焦点を当てている。
我々は,TNの最も特異なアーキテクチャパラメータの最適化を明示的に目標とする最初のNASツールを提案する。
提案したNASは,音声および生体信号を含む4つの実世界のエッジ関連タスクでテストする。
論文 参考訳(メタデータ) (2023-01-24T19:47:40Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - Geometry-Aware Gradient Algorithms for Neural Architecture Search [41.943045315986744]
重み付けによるNASを理解するために,単一レベルの経験的リスク最小化の研究を議論する。
本稿では,この最適化の基盤となる構造を利用して,疎度なアーキテクチャパラメータを返却する幾何対応フレームワークを提案する。
コンピュータビジョンにおける最新のNASベンチマークにおいて、最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-04-16T17:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。