Fugu-MT 論文翻訳(概要): GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most BERT-Pruning Methods

論文の概要: GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most BERT-Pruning Methods

arxiv url: http://arxiv.org/abs/2210.06384v1
Date: Wed, 12 Oct 2022 16:35:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 14:10:31.892143
Title: GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most BERT-Pruning Methods
Title（参考訳）: GMP*: 高度に調整されたグローバルマグニチュードプルーニングは、ほとんどのBERTプルーニング方法より優れている
Authors: Eldar Kurtic and Dan Alistarh
Abstract要約: 大規模言語モデルのための古典的な段階的プルーニング(GMP)ベースラインの性能を再検討する。我々は、GMP* と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端の手法より優れていることを示す。
参考スコア（独自算出の注目度）: 27.761221746022365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We revisit the performance of the classic gradual magnitude pruning (GMP) baseline for large language models, focusing on the classic BERT benchmark on various popular tasks. Despite existing evidence in the literature that GMP performs poorly, we show that a simple and general variant, which we call GMP*, can match and sometimes outperform more complex state-of-the-art methods. Our results provide a simple yet strong baseline for future work, highlight the importance of parameter tuning for baselines, and even improve the performance of the state-of-the-art second-order pruning method in this setting.
Abstract（参考訳）: 大規模言語モデルのための古典的段階的プルーニング(GMP)ベースラインの性能を再検討し,様々なタスクに対する古典的BERTベンチマークに焦点を当てた。 GMPは性能が劣るという文献上の既存の証拠にもかかわらず、GMP*と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端法よりも優れていることを示す。提案手法は,将来の作業において単純かつ強力なベースラインを提供し,ベースラインに対するパラメータチューニングの重要性を強調し,また,この設定における最先端の2次プルーニング法の性能も向上させる。

関連論文リスト

An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文参考訳（メタデータ） (2025-06-05T15:56:38Z)
Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文参考訳（メタデータ） (2025-03-22T07:03:57Z)
PGB: One-Shot Pruning for BERT via Weight Grouping and Permutation [5.888489927450056]
本稿では,BERT$(PGB)に対する$textitPermutation and Groupingと呼ばれる,BERTのための新しい半構造化ワンショットプルーニング手法を提案する。 PGBは、各重みの重要な群を置換により同定し、他の重み全てを多面的注意層とフィードフォワード層の両方の構造として同定する。 BERT$_textBASE$の実験結果は、PGBが計算コストと精度の保存の観点から最先端の構造化プルーニング法より優れていることを示した。
論文参考訳（メタデータ） (2025-02-06T11:34:41Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
Enhancing Graph Self-Supervised Learning with Graph Interplay [8.775644935074407]
Graph Interplay(GIP)は、様々な既存のGSSLメソッドを備えたパフォーマンスを大幅に向上させる革新的で汎用的なアプローチである。 GIPは、標準バッチ内でランダムなグラフ間エッジによる直接グラフレベルの通信を導入することを提唱している。我々の実証研究は、GIPが広く普及しているGSSL法の性能を大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-10-05T07:05:21Z)
Effective Tuning Strategies for Generalist Robot Manipulation Policies [45.36380662552082]
汎用ロボット操作ポリシー(GMP)は、幅広いタスク、デバイス、環境にまたがって一般化する可能性がある。ファインチューニングは、新しいドメインやタスクに限られたサンプルで迅速に適応する実用的な方法であるが、その結果のGMPの性能は、ファインチューニング戦略の設計選択に関して大きく異なる。
論文参考訳（メタデータ） (2024-10-02T04:00:25Z)
GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文参考訳（メタデータ） (2024-07-10T08:20:47Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
Can GPT Redefine Medical Understanding? Evaluating GPT on Biomedical Machine Reading Comprehension [2.3231783764387566]
大規模言語モデル(LLM)は、異なる領域における多くのタスクにおいて顕著なパフォーマンスを示している。本研究では,4つの閉書バイオメディカル機械読解ベンチマークを用いてGPTの評価を行った。本稿では,ベクトルデータベースの利用を緩和するImplicit Retrieval Augmented Generation (RAG) というプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-05-29T01:12:53Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文参考訳（メタデータ） (2023-12-21T03:11:30Z)
Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。 MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文参考訳（メタデータ） (2023-07-21T04:15:02Z)
Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文参考訳（メタデータ） (2021-10-13T15:11:25Z)
Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文参考訳（メタデータ） (2020-08-04T10:41:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。