Fugu-MT 論文翻訳(概要): Compressing Large Language Models with Automated Sub-Network Search

論文の概要: Compressing Large Language Models with Automated Sub-Network Search

arxiv url: http://arxiv.org/abs/2410.06479v3
Date: Wed, 05 Feb 2025 12:50:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.69438
Title: Compressing Large Language Models with Automated Sub-Network Search
Title（参考訳）: サブネットワーク検索による大規模言語モデルの圧縮
Authors: Rhea Sanjay Sukthanker, Benedikt Staffler, Frank Hutter, Aaron Klein,
Abstract要約: 我々は、下流タスク性能を改善しつつ、モデルサイズの削減を図るため、大規模言語モデルに対するモデル圧縮を検討する。我々はこれを、構造的コンポーネントを自動生成するニューラルネットワーク探索問題と表現する。本手法は,11種類のダウンストリームタスクに対して平均9.85%の改善を実現し,デバイス上でのレイテンシを最大22%改善する。
参考スコア（独自算出の注目度）: 41.452512557226335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) demonstrate exceptional reasoning abilities, enabling strong generalization across diverse tasks such as commonsense reasoning and instruction following. However, as LLMs scale, inference costs become increasingly prohibitive, accumulating significantly over their life cycle. In this paper we consider model compression for LLMs to reduce model size while improving downstream task performance. We phrase this as a neural architecture search problem that automatically prunes structural components, such as attention heads, neurons, and layers by searching for the Pareto-optimal set of sub-networks balancing between performance and on-device latency. Compared to state-of-the-art structural pruning approaches and fine-tuned smaller sub-networks extracted from the pre-trained model, our method achieves upto 9.85% improvement on average on 11 diverse downstream tasks, while achieving up to 22% improvement of on-device latency.
Abstract（参考訳）: 大規模言語モデル(LLM)は例外的な推論能力を示し、コモンセンス推論や後続の命令といった様々なタスクに対して強力な一般化を可能にする。しかし、LLMの規模が大きくなるにつれて、推論コストはますます禁じられ、ライフサイクルを通じて著しく蓄積される。本稿では、下流タスク性能を改善しつつ、モデルサイズを低減するため、LLMのモデル圧縮を検討する。我々はこれを、パフォーマンスとオンデバイスレイテンシのバランスをとるサブネットワークのパレート最適セットを探索することで、アテンションヘッド、ニューロン、レイヤなどの構造コンポーネントを自動的に生成するニューラルネットワーク探索問題と表現する。プレトレーニングモデルから抽出した最先端構造解析手法や微調整された小型サブネットワークと比較して,11種類の下流タスクの平均9.85%の改善を実現し,デバイス上でのレイテンシを最大22%改善した。

関連論文リスト

TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文参考訳（メタデータ） (2025-01-23T02:14:08Z)
FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。 FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文参考訳（メタデータ） (2025-01-16T09:38:39Z)
LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文参考訳（メタデータ） (2024-10-28T14:45:01Z)
SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文参考訳（メタデータ） (2024-10-14T17:38:41Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Contemporary Model Compression on Large Language Models Inference [7.307436175842646]
大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。 LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models [3.4070166891274263]
大規模言語モデル(LLM)は、自然言語処理、複雑な推論、感情分析、その他のタスクを解決する。これらの能力はメモリと計算コストが非常に高く、ほとんどのハードウェアプラットフォームでのLLMの使用を妨げている。ワンショットNASを用いたLLaMA2-7Bに基づくパレート最適ネットワークアーキテクチャの探索手法を提案する。特定の標準ベンチマークタスクに対して、事前訓練されたLLaMA2-7Bネットワークは不要に大きく、複雑であることを示す。
論文参考訳（メタデータ） (2024-05-28T17:20:44Z)
Structural Pruning of Pre-trained Language Models via Neural Architecture Search [7.833790713816726]
事前学習された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された自然言語理解タスクの最先端である。本稿では, 最適トレードオフ効率を有する微調整ネットワークのサブ部分を見つけるために, 構造解析のためのニューラルアーキテクチャ探索(NAS)について検討する。
論文参考訳（メタデータ） (2024-05-03T17:34:57Z)
Lightweight Diffusion Models with Distillation-Based Block Neural Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文参考訳（メタデータ） (2023-11-08T12:56:59Z)
LLM Performance Predictors are good initializers for Architecture Search [28.251129134057035]
我々は、下流タスクにおける特定のディープニューラルネットワークアーキテクチャの性能を推定するパフォーマンス予測器(PP)を構築した。機械翻訳 (MT) タスクでは, PPプロンプト (LLM-PP) を用いた GPT-4 は SoTA 平均絶対誤差と, ベースライン予測器と比較してランク相関係数がわずかに低下する。ニューラルネットワーク探索 (NAS) では, LLM-Distill-PP を用いたハイブリッド探索アルゴリズム (HS-NAS) を導入する。
論文参考訳（メタデータ） (2023-10-25T15:34:30Z)
Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文参考訳（メタデータ） (2023-09-12T22:28:53Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
NASiam: Efficient Representation Learning using Neural Architecture Search for Siamese Networks [76.8112416450677]
シームズネットワークは、自己教師付き視覚表現学習(SSL)を実現するための最も傾向のある方法の1つである。 NASiamは、初めて微分可能なNASを使用して、多層パーセプトロンプロジェクタと予測器(エンコーダ/予測器ペア)を改善する新しいアプローチである。 NASiamは、小規模(CIFAR-10/CIFAR-100)と大規模(画像Net)画像分類データセットの両方で競合性能を達成し、わずか数GPU時間しかかからない。
論文参考訳（メタデータ） (2023-01-31T19:48:37Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文参考訳（メタデータ） (2020-11-04T07:43:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。