Fugu-MT 論文翻訳(概要): How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark

論文の概要: How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark

arxiv url: http://arxiv.org/abs/2312.13547v1
Date: Thu, 21 Dec 2023 03:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 16:04:20.560186
Title: How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark
Title（参考訳）: 言語モデルをPruneする方法: "Sparsity May Cry''ベンチマークの正確さの回復
Authors: Eldar Kurtic, Torsten Hoefler, Dan Alistarh
Abstract要約: 下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
参考スコア（独自算出の注目度）: 60.72725673114168
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pruning large language models (LLMs) from the BERT family has emerged as a standard compression benchmark, and several pruning methods have been proposed for this task. The recent ``Sparsity May Cry'' (SMC) benchmark put into question the validity of all existing methods, exhibiting a more complex setup where many known pruning methods appear to fail. We revisit the question of accurate BERT-pruning during fine-tuning on downstream datasets, and propose a set of general guidelines for successful pruning, even on the challenging SMC benchmark. First, we perform a cost-vs-benefits analysis of pruning model components, such as the embeddings and the classification head; second, we provide a simple-yet-general way of scaling training, sparsification and learning rate schedules relative to the desired target sparsity; finally, we investigate the importance of proper parametrization for Knowledge Distillation in the context of LLMs. Our simple insights lead to state-of-the-art results, both on classic BERT-pruning benchmarks, as well as on the SMC benchmark, showing that even classic gradual magnitude pruning (GMP) can yield competitive results, with the right approach.
Abstract（参考訳）: BERTファミリーから大規模言語モデル(LLM)を抽出する手法が標準圧縮ベンチマークとして登場し,この課題に対していくつかのプルーニング手法が提案されている。最近の `sparsity may cry'' (smc) ベンチマークは、既存のすべてのメソッドの妥当性に疑問を呈し、多くの既知のpruningメソッドが失敗するより複雑な設定を示した。下流のデータセットを微調整する際の正確なbert-pruningの問題を再検討し、挑戦的なsmcベンチマークでもpruning成功のための一般的なガイドラインを提案する。第一に,埋め込みや分類ヘッドなどのモデルコンポーネントのコスト対効果分析を行い,第二に,目標のスパース性に対するトレーニング,スパース化,学習率スケジュールの簡易化方法を提案し,最後に,llmの文脈における知識蒸留における適切なパラメトリゼーションの重要性について検討した。我々の単純な洞察は、古典的なBERTプルーニングベンチマークとSMCベンチマークの両方で最先端の結果をもたらし、古典的な段階的なプルーニング(GMP)でさえ、正しいアプローチで競争結果が得られることを示した。

関連論文リスト

MT-RewardTree: A Comprehensive Framework for Advancing LLM-Based Machine Translation via Reward Modeling [7.980524378201173]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の複雑な推論タスクに成功している。しかし, 機械翻訳(MT)への応用は, 体系的手法や評価ベンチマークが欠如しているため, 未検討のままである。我々は,プロセス報酬モデルの構築,評価,デプロイを行う包括的なフレームワークであるtextbfMT-RewardTreeを紹介した。
論文参考訳（メタデータ） (2025-03-15T13:04:51Z)
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。本稿では LLM PTQ のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-18T07:35:35Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。重要でないトークンを適応的に識別する学習可能なルータを提案する。提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文参考訳（メタデータ） (2024-12-16T07:09:46Z)
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
大規模言語モデル(LLM)に対するより柔軟なベンチマーク手法を提案する。 textittextbfVarco Arena はトーナメントスタイルで LLM の参照なしベンチマークを提供する。シミュレーション実験により得られた実験結果から,textittextbfVarco Arena トーナメントのアプローチは,現在の Elo モデルとよく一致していることが示された。
論文参考訳（メタデータ） (2024-11-02T15:23:28Z)
Breaking the Ceiling of the LLM Community by Treating Token Generation as a Classification for Ensembling [3.873482175367558]
本稿では,Large Language Model (LLM) による各トークンの生成を,アンサンブルのための分類(GaC)として扱う。実験では、試験、数学、推論などいくつかのベンチマークで最先端のLCMをアンサンブルし、我々の手法が既存のコミュニティのパフォーマンスを損なうことを観察する。
論文参考訳（メタデータ） (2024-06-18T13:17:26Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-01T03:27:08Z)
Learning Efficient Coding of Natural Images with Maximum Manifold Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文参考訳（メタデータ） (2023-03-06T17:26:30Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most BERT-Pruning Methods [27.761221746022365]
大規模言語モデルのための古典的な段階的プルーニング(GMP)ベースラインの性能を再検討する。我々は、GMP* と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2022-10-12T16:35:47Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文参考訳（メタデータ） (2021-06-23T09:17:23Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。