論文の概要: Pruning General Large Language Models into Customized Expert Models
- arxiv url: http://arxiv.org/abs/2506.02561v1
- Date: Tue, 03 Jun 2025 07:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.409515
- Title: Pruning General Large Language Models into Customized Expert Models
- Title(参考訳): 汎用的な大規模言語モデルをカスタマイズされたエキスパートモデルに抽出する
- Authors: Yirao Zhao, Guizhen Chen, Kenji Kawaguchi, Lidong Bing, Wenxuan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その相当なモデルサイズは、しばしばかなりの計算資源を必要とする。
そこで本研究では,より小型のエキスパートモデルに大容量の一般モデルを組み込む手法を提案する。
各次元の無関係ニューロンを識別し、プルーニングすることにより、$textttCus-Prun$は、ポストトレーニングなしで専門家モデルを作成する。
- 参考スコア(独自算出の注目度): 78.96891010334852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized natural language processing, yet their substantial model sizes often require substantial computational resources. To preserve computing resources and accelerate inference speed, it is crucial to prune redundant parameters, especially for experienced users who often need compact expert models tailored to specific downstream scenarios. However, most existing pruning methods focus on preserving the model's general capabilities, often requiring extensive post-training or suffering from degraded performance due to coarse-grained pruning. In this work, we design a $\underline{Cus}$tom $\underline{Prun}$ing method ($\texttt{Cus-Prun}$) to prune a large general model into a smaller lightweight expert model, which is positioned along the "language", "domain" and "task" dimensions. By identifying and pruning irrelevant neurons of each dimension, $\texttt{Cus-Prun}$ creates expert models without any post-training. Our experiments demonstrate that $\texttt{Cus-Prun}$ consistently outperforms other methods, achieving minimal loss in both expert and general capabilities across various models from different model families and sizes.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その相当なモデルサイズは、しばしばかなりの計算資源を必要とする。
コンピューティングリソースを保存し、推論速度を加速するためには、特に特定の下流シナリオに適したコンパクトなエキスパートモデルを必要とする経験豊富なユーザーにとって、冗長なパラメータを経験することが不可欠である。
しかし、既存のプルーニング手法の多くはモデルの一般的な機能を維持することに重点を置いており、多くの場合、粗いプルーニングによる広範囲なトレーニング後や劣化したパフォーマンスに悩まされる。
本研究では,大容量の一般モデルを,言語,ドメイン,タスクの各次元に沿って配置した,より小さな軽量なエキスパートモデルに変換するために,$\underline{Cus}$tom $\underline{Prun}$ingメソッド($\texttt{Cus-Prun}$)を設計する。
各次元の無関係なニューロンを識別し、プルーニングすることで、$\texttt{Cus-Prun}$は、ポストトレーニングなしで専門家モデルを作成する。
我々の実験は、$\texttt{Cus-Prun}$が他のメソッドを一貫して上回り、異なるモデルファミリやサイズから様々なモデルにまたがる専門家と一般の能力の損失を最小限に抑えることを示した。
関連論文リスト
- EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Model Compression and Efficient Inference for Large Language Models: A
Survey [20.199282252344396]
大きな言語モデルは、より小さなモデルに比べて2つの顕著な特徴を持つ。
大きなモデルの最も顕著な側面は、モデルの微調整やトレーニングに関連する非常に高いコストである。
大規模モデルは、1つのタスクのパフォーマンスよりも、汎用性と一般化を強調する。
論文 参考訳(メタデータ) (2024-02-15T06:58:30Z) - Selective Pre-training for Private Fine-tuning [33.55628974557588]
パブリックデータセットでの注意深い事前トレーニングは、小さな言語モデルを異なるプライバシでトレーニングするために不可欠であることを示す。
その結果、より小さなモデルでは、注意深い事前トレーニングとプライベートな微調整によって、プライベートデータにアクセスできないはるかに大きなモデルの性能にマッチすることを示した。
論文 参考訳(メタデータ) (2023-05-23T09:36:58Z) - Structural Dropout for Model Width Compression [1.52292571922932]
既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。
本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
論文 参考訳(メタデータ) (2022-05-13T21:50:57Z) - TextPruner: A Model Pruning Toolkit for Pre-Trained Language Models [18.49325959450621]
我々は、事前訓練された言語モデルのためのオープンソースのモデルプルーニングツールキットであるTextPrunerを紹介する。
TextPrunerは、ボキャブラリプルーニングやトランスフォーマープルーニングなどの構造化後プルーニング方法を提供する。
いくつかのNLPタスクによる実験では、モデルを再トレーニングすることなく、TextPrunerがモデルサイズを縮小できることを示した。
論文 参考訳(メタデータ) (2022-03-30T02:10:33Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。