論文の概要: GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most
BERT-Pruning Methods
- arxiv url: http://arxiv.org/abs/2210.06384v2
- Date: Thu, 13 Oct 2022 06:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:36:40.773271
- Title: GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most
BERT-Pruning Methods
- Title(参考訳): GMP*: 高度に調整されたグローバルマグニチュードプルーニングは、ほとんどのBERTプルーニング方法より優れている
- Authors: Eldar Kurtic and Dan Alistarh
- Abstract要約: 大規模言語モデルのための古典的な段階的プルーニング(GMP)ベースラインの性能を再検討する。
我々は、GMP* と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 27.761221746022365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit the performance of the classic gradual magnitude pruning (GMP)
baseline for large language models, focusing on the classic BERT benchmark on
various popular tasks. Despite existing evidence in the literature that GMP
performs poorly, we show that a simple and general variant, which we call GMP*,
can match and sometimes outperform more complex state-of-the-art methods. Our
results provide a simple yet strong baseline for future work, highlight the
importance of parameter tuning for baselines, and even improve the performance
of the state-of-the-art second-order pruning method in this setting.
- Abstract(参考訳): 大規模言語モデルのための古典的段階的プルーニング(GMP)ベースラインの性能を再検討し,様々なタスクに対する古典的BERTベンチマークに焦点を当てた。
GMPは性能が劣るという文献上の既存の証拠にもかかわらず、GMP*と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端法よりも優れていることを示す。
提案手法は,将来の作業において単純かつ強力なベースラインを提供し,ベースラインに対するパラメータチューニングの重要性を強調し,また,この設定における最先端の2次プルーニング法の性能も向上させる。
関連論文リスト
- Enhancing Graph Self-Supervised Learning with Graph Interplay [8.775644935074407]
Graph Interplay(GIP)は、様々な既存のGSSLメソッドを備えたパフォーマンスを大幅に向上させる革新的で汎用的なアプローチである。
GIPは、標準バッチ内でランダムなグラフ間エッジによる直接グラフレベルの通信を導入することを提唱している。
我々の実証研究は、GIPが広く普及しているGSSL法の性能を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-10-05T07:05:21Z) - Effective Tuning Strategies for Generalist Robot Manipulation Policies [45.36380662552082]
汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。
ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。
論文 参考訳(メタデータ) (2024-10-02T04:00:25Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Can GPT Redefine Medical Understanding? Evaluating GPT on Biomedical Machine Reading Comprehension [2.3231783764387566]
大規模言語モデル(LLM)は、異なる領域における多くのタスクにおいて顕著なパフォーマンスを示している。
本研究では,4つの閉書バイオメディカル機械読解ベンチマークを用いてGPTの評価を行った。
本稿では,ベクトルデータベースの利用を緩和するImplicit Retrieval Augmented Generation (RAG) というプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-29T01:12:53Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。