Fugu-MT 論文翻訳(概要): Block Pruning For Faster Transformers

論文の概要: Block Pruning For Faster Transformers

arxiv url: http://arxiv.org/abs/2109.04838v1
Date: Fri, 10 Sep 2021 12:46:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-13 13:42:55.724902
Title: Block Pruning For Faster Transformers
Title（参考訳）: 高速変圧器のブロックプルーニング
Authors: Fran\c{c}ois Lagunas, Ella Charlaix, Victor Sanh, Alexander M. Rush
Abstract要約: 小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
参考スコア（独自算出の注目度）: 89.70392810063247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training has improved model accuracy for both classification and generation tasks at the cost of introducing much larger and slower models. Pruning methods have proven to be an effective way of reducing model size, whereas distillation methods are proven for speeding up inference. We introduce a block pruning approach targeting both small and fast models. Our approach extends structured methods by considering blocks of any size and integrates this structure into the movement pruning paradigm for fine-tuning. We find that this approach learns to prune out full components of the underlying model, such as attention heads. Experiments consider classification and generation tasks, yielding among other results a pruned model that is a 2.4x faster, 74% smaller BERT on SQuAD v1, with a 1% drop on F1, competitive both with distilled models in speed and pruned models in size.
Abstract（参考訳）: 事前学習は、より大きく遅いモデルを導入するコストで、分類タスクと生成タスクの両方のモデル精度を改善した。プルーニング法はモデルサイズの削減に有効な方法であることが証明されているが, 蒸留法は推論の高速化に有効である。小型モデルと高速モデルの両方を対象としたブロック刈り込み手法を提案する。提案手法は,任意のサイズのブロックを考慮して構造化手法を拡張し,この構造を微調整のための移動プルーニングパラダイムに統合する。このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。実験では、分類と生成タスクを考慮し、その他の結果の中で、SQuAD v1上で2.4倍高速で74%小さいBERTで、F1では1%低下し、蒸留されたモデルの速度とプルーンドモデルの両方と競合するプルーンドモデルが得られる。

関連論文リスト

Improved Methods for Model Pruning and Knowledge Distillation [3.8993503758122663]
MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-05-20T07:53:40Z)
Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文参考訳（メタデータ） (2025-05-19T17:59:42Z)
IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining [50.53912352342753]
本稿では,モデルトレーニング,プルーニング,リカバリを併用した拡張・プルンパイプラインを提案する。我々は2.8Bモデルから1.3Bへのプレトレーニングにおいて最大2Tトークンによる圧縮実験を行った。これは、拡大されたモデルの事前学習のトークン効率に関する洞察を提供するだけでなく、刈り取られたモデルの優れた性能を達成するための統合されたアプローチを示す。
論文参考訳（メタデータ） (2025-03-07T20:35:31Z)
MultiPruner: Balanced Structure Removal in Foundation Models [1.8434042562191815]
近年,大規模な事前学習モデル (LPM) を刈り取るための最先端手法として,トランスフォーマーにおける非臨界残留ブロックの非臨界除去がモデルサイズ削減に有効であることを実証している。我々はBlockPrunerを拡張し、MultiPrunerを提案する。
論文参考訳（メタデータ） (2025-01-17T04:24:31Z)
Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。 SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。 SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文参考訳（メタデータ） (2024-12-23T08:40:08Z)
MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文参考訳（メタデータ） (2024-10-15T19:22:27Z)
SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow [24.213303324584906]
我々は, 強力な整流フローフレームワークに基づく, 小型かつ効率的な1ステップ拡散モデルを構築した。我々は、FIDが5.02と15.7Mの1ステップ拡散モデルを訓練し、従来の最先端1ステップ拡散モデルよりも優れている。
論文参考訳（メタデータ） (2024-07-17T16:38:45Z)
T-Stitch: Accelerating Sampling in Pre-Trained Diffusion Models with Trajectory Stitching [143.72720563387082]
Trajectory Stitching T-Stitchは, ほとんどあるいは全く発生しないことなくサンプリング効率を向上させるための, 単純かつ効率的な手法である。我々の重要な洞察は、異なる拡散モデルが同じトレーニングデータ分布の下で同様のエンコーディングを学ぶことである。また,本手法は,SDモデルの高速化を目的としたドロップイン手法としても利用できる。
論文参考訳（メタデータ） (2024-02-21T23:08:54Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Federated Topic Model and Model Pruning Based on Variational Autoencoder [14.737942599204064]
フェデレートされたトピックモデリングにより、複数のパーティがデータのプライバシを保護しながらモデルを共同でトレーニングできる。本稿では,各ノードのプライバシを確保しつつ,フェデレートされたトピックモデルを確立する手法を提案し,ニューラルネットワークモデルプルーニングを用いてモデルを高速化する。実験結果から,フェデレートされたトピックモデルプルーニングは,モデルの性能を確保しつつ,モデルのトレーニング速度を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2023-11-01T06:00:14Z)
Finding the SWEET Spot: Analysis and Improvement of Adaptive Inference in Low Resource Settings [6.463202903076821]
トレーニングデータに制限がある場合、適応推論の2つの主要なアプローチであるEarly-ExitとMulti-Modelを比較した。 Early-Exitは、マルチモデルアプローチのオーバーヘッドのために、より高速なトレードオフを提供する。本稿では,SWEETを提案する。SWEETは,各分類器に独自のモデル重みの集合を割り当てる初期出力微調整法である。
論文参考訳（メタデータ） (2023-06-04T09:16:39Z)
Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。 CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。 GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文参考訳（メタデータ） (2022-04-01T13:09:56Z)
Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文参考訳（メタデータ） (2020-05-15T17:54:15Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。