論文の概要: Eigenpruning
- arxiv url: http://arxiv.org/abs/2404.03147v3
- Date: Tue, 30 Apr 2024 01:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:58:59.608253
- Title: Eigenpruning
- Title(参考訳): 固有プルーニング
- Authors: Tomás Vergara-Browne, Álvaro Soto, Akiko Aizawa,
- Abstract要約: 固有プルーニング(eigenpruning)は,LLMから特異値を取り除き,特定のタスクの性能を向上させる手法である。
我々のテストでは、プルーンドモデルは元のモデルよりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 26.54666928825269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce eigenpruning, a method that removes singular values from weight matrices in an LLM to improve its performance in a particular task. This method is inspired by interpretability methods designed to automatically find subnetworks of a model which solve a specific task. In our tests, the pruned model outperforms the original model by a large margin, while only requiring minimal computation to prune the weight matrices. In the case of a small synthetic task in integer multiplication, the Phi-2 model can improve its accuracy in the test set from 13.75% to 97.50%. Interestingly, these results seem to indicate the existence of a computation path that can solve the task very effectively, but it was not being used by the original model. Finally, we publicly release our implementation.
- Abstract(参考訳): 固有プルーニング(eigenpruning)は、LLMの重み行列から特異値を取り除き、特定のタスクの性能を向上させる手法である。
この方法は、特定のタスクを解決するモデルのサブネットワークを自動的に見つけるために設計された解釈可能性メソッドにインスパイアされている。
実験では, プルーンドモデルでは, 重量行列のプルーニングに最小限の計算しか必要とせず, 元のモデルよりも大きなマージンで性能が向上した。
整数乗算における小さな合成タスクの場合、Phi-2モデルはテストセットの精度を13.75%から97.50%に向上させることができる。
興味深いことに、これらの結果はタスクを効果的に解決できる計算経路の存在を示すものと思われるが、元のモデルでは使われていなかった。
最後に、実装を公開します。
関連論文リスト
- Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Entropy Induced Pruning Framework for Convolutional Neural Networks [30.89967076857665]
本稿では,各フィルタの重要性を測定するために,平均フィルタ情報エントロピー (AFIE) という指標を提案する。
提案手法は,元のモデルが十分に訓練されているかどうかに関わらず,各フィルタの安定性を評価できる。
論文 参考訳(メタデータ) (2022-08-13T14:35:08Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Test Set Sizing Via Random Matrix Theory [91.3755431537592]
本稿ではランダム行列理論の手法を用いて、単純な線形回帰に対して理想的なトレーニング-テストデータ分割を求める。
それは「理想」を整合性計量を満たすものとして定義し、すなわち経験的モデル誤差は実際の測定ノイズである。
本論文は,任意のモデルのトレーニングとテストサイズを,真に最適な方法で解決した最初の論文である。
論文 参考訳(メタデータ) (2021-12-11T13:18:33Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。