論文の概要: COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models
- arxiv url: http://arxiv.org/abs/2210.15523v1
- Date: Thu, 27 Oct 2022 15:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:02:41.346443
- Title: COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models
- Title(参考訳): cost-eff:slenderized multi-exit language modelによる空間・時間効率の協調最適化
- Authors: Bowen Shen, Zheng Lin, Yuanxin Liu, Zhengxiao Liu, Lei Wang, Weiping
Wang
- Abstract要約: トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
- 参考スコア(独自算出の注目度): 16.586312156966635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based pre-trained language models (PLMs) mostly suffer from
excessive overhead despite their advanced capacity. For resource-constrained
devices, there is an urgent need for a spatially and temporally efficient model
which retains the major capacity of PLMs. However, existing statically
compressed models are unaware of the diverse complexities between input
instances, potentially resulting in redundancy and inadequacy for simple and
complex inputs. Also, miniature models with early exiting encounter challenges
in the trade-off between making predictions and serving the deeper layers.
Motivated by such considerations, we propose a collaborative optimization for
PLMs that integrates static model compression and dynamic inference
acceleration. Specifically, the PLM is slenderized in width while the depth
remains intact, complementing layer-wise early exiting to speed up inference
dynamically. To address the trade-off of early exiting, we propose a joint
training approach that calibrates slenderization and preserves contributive
structures to each exit instead of only the final layer. Experiments are
conducted on GLUE benchmark and the results verify the Pareto optimality of our
approach at high compression and acceleration rate with 1/8 parameters and 1/19
FLOPs of BERT.
- Abstract(参考訳): トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
資源制約のあるデバイスでは、PLMの主要な容量を保持する空間的かつ時間的効率のよいモデルが必要である。
しかし、既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気付かず、単純で複雑な入力の冗長性と不適切な結果をもたらす可能性がある。
また、早期に脱出するミニチュアモデルでは、予測とより深い層へのサービスの間のトレードオフが問題となる。
このような考察により,静的モデル圧縮と動的推論加速度を統合したPLMの協調最適化を提案する。
具体的には、plmは深さが保たれながら幅が細くなり、層状の早期出口を補完して推論を動的に高速化する。
早期出口のトレードオフに対処するため,我々は,最終層のみでなく,各出口への結束構造を細分化し,保存する合同訓練手法を提案する。
GLUEベンチマークで実験を行い, BERTの1/8パラメータと1/19 FLOPを用いて, 高い圧縮・加速速度で提案手法のパレート最適性を検証した。
関連論文リスト
- SAFE: Slow and Fast Parameter-Efficient Tuning for Continual Learning with Pre-Trained Models [26.484208658326857]
継続的な学習は、過去の知識を忘れることに抵抗しながら、データストリームにおける新しい概念を漸進的に獲得することを目的としている。
強力な事前学習モデル(PTM)の台頭に伴い、インクリメンタル学習システムのトレーニングへの関心が高まっている。
論文 参考訳(メタデータ) (2024-11-04T15:34:30Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。
我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。
実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文 参考訳(メタデータ) (2024-01-17T13:04:14Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Evolve Smoothly, Fit Consistently: Learning Smooth Latent Dynamics For
Advection-Dominated Systems [14.553972457854517]
複雑な物理系のサロゲートモデルを学ぶための,データ駆動・時空連続フレームワークを提案する。
ネットワークの表現力と特別に設計された整合性誘導正規化を利用して,低次元かつ滑らかな潜在軌道を得る。
論文 参考訳(メタデータ) (2023-01-25T03:06:03Z) - Accelerating Pre-trained Language Models via Calibrated Cascade [37.00619245086208]
我々は,動的早期退避の動作機構を解析し,推論速度と性能のトレードオフを十分に達成できないことを確認した。
本稿では,キャスケード方式で適切なサイズの完全モデルを動的に選択するCascadeBERTを提案する。
論文 参考訳(メタデータ) (2020-12-29T09:43:50Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。