Fugu-MT 論文翻訳(概要): Efficient Pruning of Large Language Model with Adaptive Estimation Fusion

論文の概要: Efficient Pruning of Large Language Model with Adaptive Estimation Fusion

arxiv url: http://arxiv.org/abs/2403.10799v3
Date: Wed, 15 May 2024 02:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 15:45:06.333933
Title: Efficient Pruning of Large Language Model with Adaptive Estimation Fusion
Title（参考訳）: 適応的推定融合を用いた大規模言語モデルの効率的なプルーニング
Authors: Jun Liu, Chao Wu, Changdi Yang, Hao Tang, Zhenglun Kong, Geng Yuan, Wei Niu, Dong Huang, Yanzhi Wang,
Abstract要約: 本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。複雑な構造と多層構造の結果に基づいて、粗粒度と細粒度の推定を適応的に融合させることができる。その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。
参考スコア（独自算出の注目度）: 45.423001839959156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices. Structured pruning is a widely used method to address this challenge. However, when dealing with the complex structure of the multiple decoder layers, general methods often employ common estimation approaches for pruning. These approaches lead to a decline in accuracy for specific downstream tasks. In this paper, we introduce a simple yet efficient method that adaptively models the importance of each substructure. Meanwhile, it can adaptively fuse coarse-grained and finegrained estimations based on the results from complex and multilayer structures. All aspects of our design seamlessly integrate into the endto-end pruning framework. Our experimental results, compared with state-of-the-art methods on mainstream datasets, demonstrate average accuracy improvements of 1.1%, 1.02%, 2.0%, and 1.2% for LLaMa-7B,Vicuna-7B, Baichuan-7B, and Bloom-7b1, respectively.
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くの生成的な下流タスクにおいて重要なものとなり、リソースに制約のあるデバイスに効率的にデプロイする上で、避けられない傾向と重大な課題に繋がった。構造化プルーニング(Structured pruning)は、この課題に対処するために広く使われている手法である。しかし、複数のデコーダ層の複雑な構造を扱う場合、一般的な手法ではプルーニングに一般的な推定手法を用いることが多い。これらのアプローチは、特定の下流タスクの精度を低下させる。本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。一方、複雑な構造と多層構造から得られた結果に基づいて、粗粒度と微粒度の推定を適応的に融合させることができる。設計のすべての側面は、エンドツーエンドのプルーニングフレームワークにシームレスに統合されます。その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。

関連論文リスト

IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。 IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文参考訳（メタデータ） (2025-07-16T06:39:11Z)
ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning [15.933542902352604]
本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-28T05:25:16Z)
The Other Side of the Coin: Exploring Fairness in Retrieval-Augmented Generation [73.16564415490113]
Retrieval-Augmented Generation (RAG)は、外部の知識ソースから関連文書を取得することにより、Large Language Models (LLM)を強化する。本稿では,小規模LLMにおいてRAGが導入した公平性問題を軽減するために,FairFTとFairFilterの2つのアプローチを提案する。
論文参考訳（メタデータ） (2025-04-11T10:17:10Z)
Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity [32.668409666483626]
既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
論文参考訳（メタデータ） (2025-03-14T08:05:49Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文参考訳（メタデータ） (2024-12-05T16:31:13Z)
A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文参考訳（メタデータ） (2024-07-23T08:40:27Z)
Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。 NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文参考訳（メタデータ） (2024-04-27T21:00:38Z)
Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。 OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文参考訳（メタデータ） (2023-10-08T14:22:58Z)
Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文参考訳（メタデータ） (2023-10-08T05:16:28Z)
ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。 LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文参考訳（メタデータ） (2023-10-04T17:34:00Z)
Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。 2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文参考訳（メタデータ） (2022-12-05T01:58:45Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Adaptive Activation-based Structured Pruning [5.445935252764351]
プルーニングは、複雑なディープラーニングモデルを圧縮してリソース制約のあるエッジデバイスにデプロイするための、有望なアプローチである。本稿では, 適応型, アクティベーションベース, 構造化プルーニング手法を用いて, 小型, 高精度, ハードウェア効率のモデルを自動的に, 効率的に生成する手法を提案する。包括的評価により, 提案手法は, 最先端の構造化プルーニング作業よりも大幅に優れることが示された。
論文参考訳（メタデータ） (2022-01-21T22:21:31Z)
Semantic Perturbations with Normalizing Flows for Improved Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文参考訳（メタデータ） (2021-08-18T03:20:00Z)
Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文参考訳（メタデータ） (2020-11-14T09:51:51Z)
SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。 3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文参考訳（メタデータ） (2020-09-21T22:02:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。