論文の概要: E-LANG: Energy-Based Joint Inferencing of Super and Swift Language
Models
- arxiv url: http://arxiv.org/abs/2203.00748v1
- Date: Tue, 1 Mar 2022 21:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:51:59.309207
- Title: E-LANG: Energy-Based Joint Inferencing of Super and Swift Language
Models
- Title(参考訳): E-LANG:スーパーおよびスウィフト言語モデルのエネルギーベース共同推論
- Authors: Mohammad Akbari, Amin Banitalebi-Dehkordi, Yong Zhang
- Abstract要約: 本稿では,大規模高精度スーパーモデルと軽量スウィフトモデルの間での推論を分散するE-Langと呼ばれる効果的な動的推論手法を提案する。
E-Langは簡単に採用でき、アーキテクチャに依存しない。
エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,本手法はエンコーダ・デコーダ構造や,翻訳などのシーケンス・ツー・シーケンスタスクにも有効である。
- 参考スコア(独自算出の注目度): 9.36591003178585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building huge and highly capable language models has been a trend in the past
years. Despite their great performance, they incur high computational cost. A
common solution is to apply model compression or choose light-weight
architectures, which often need a separate fixed-size model for each desirable
computational budget, and may lose performance in case of heavy compression.
This paper proposes an effective dynamic inference approach, called E-LANG,
which distributes the inference between large accurate Super-models and
light-weight Swift models. To this end, a decision making module routes the
inputs to Super or Swift models based on the energy characteristics of the
representations in the latent space. This method is easily adoptable and
architecture agnostic. As such, it can be applied to black-box pre-trained
models without a need for architectural manipulations, reassembling of modules,
or re-training. Unlike existing methods that are only applicable to
encoder-only backbones and classification tasks, our method also works for
encoder-decoder structures and sequence-to-sequence tasks such as translation.
The E-LANG performance is verified through a set of experiments with T5 and
BERT backbones on GLUE, SuperGLUE, and WMT. In particular, we outperform T5-11B
with an average computations speed-up of 3.3$\times$ on GLUE and 2.9$\times$ on
SuperGLUE. We also achieve BERT-based SOTA on GLUE with 3.2$\times$ less
computations. Code and demo are available in the supplementary materials.
- Abstract(参考訳): 巨大で高機能な言語モデルの構築は、ここ数年のトレンドです。
性能は高いものの、計算コストが高い。
一般的な解決策は、モデル圧縮を適用するか、あるいは軽量アーキテクチャを選択することである。
本稿では,大規模高精度スーパーモデルと軽量スウィフトモデル間の推論を分散するE-LANGという動的推論手法を提案する。
この目的のために、決定モジュールは、潜在空間における表現のエネルギー特性に基づいて、入力をスーパーまたはスウィフトモデルにルーティングする。
この手法は容易に採用でき、アーキテクチャに依存しない。
そのため、アーキテクチャ操作、モジュールの再組み立て、再トレーニングを必要とせずに、ブラックボックスの事前訓練モデルに適用することができる。
エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,エンコーダ・デコーダ構造や翻訳などのシーケンス・ツー・シーケンスタスクにも機能する。
E-LANGの性能は、GLUE、SuperGLUE、WMT上でのT5とBERTのバックボーンによる一連の実験によって検証される。
特に、平均計算速度はGLUEで3.3$\times$、SuperGLUEで2.9$\times$より優れている。
BERTベースのSOTAもGLUE上で3.2$\times$少ない計算で実現しています。
コードとデモは補足資料で入手できる。
関連論文リスト
- Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive
Decoders [9.400555345874988]
語彙化スコアリング機能を持つTransformerクロスアテンションモデルのゲインを最大86%取得する方法を提案する。
本稿では,最近のエンコーダデコーダやデコーダのみの大規模言語モデルと互換性のあるモデルアーキテクチャとしてNAILを導入する。
論文 参考訳(メタデータ) (2023-05-23T20:09:52Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。
その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。
本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文 参考訳(メタデータ) (2021-08-07T00:39:42Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。