Fugu-MT 論文翻訳(概要): E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models

論文の概要: E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models

arxiv url: http://arxiv.org/abs/2203.00748v1
Date: Tue, 1 Mar 2022 21:21:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-03 13:51:59.309207
Title: E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models
Title（参考訳）: E-LANG:スーパーおよびスウィフト言語モデルのエネルギーベース共同推論
Authors: Mohammad Akbari, Amin Banitalebi-Dehkordi, Yong Zhang
Abstract要約: 本稿では,大規模高精度スーパーモデルと軽量スウィフトモデルの間での推論を分散するE-Langと呼ばれる効果的な動的推論手法を提案する。 E-Langは簡単に採用でき、アーキテクチャに依存しない。エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,本手法はエンコーダ・デコーダ構造や,翻訳などのシーケンス・ツー・シーケンスタスクにも有効である。
参考スコア（独自算出の注目度）: 9.36591003178585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building huge and highly capable language models has been a trend in the past years. Despite their great performance, they incur high computational cost. A common solution is to apply model compression or choose light-weight architectures, which often need a separate fixed-size model for each desirable computational budget, and may lose performance in case of heavy compression. This paper proposes an effective dynamic inference approach, called E-LANG, which distributes the inference between large accurate Super-models and light-weight Swift models. To this end, a decision making module routes the inputs to Super or Swift models based on the energy characteristics of the representations in the latent space. This method is easily adoptable and architecture agnostic. As such, it can be applied to black-box pre-trained models without a need for architectural manipulations, reassembling of modules, or re-training. Unlike existing methods that are only applicable to encoder-only backbones and classification tasks, our method also works for encoder-decoder structures and sequence-to-sequence tasks such as translation. The E-LANG performance is verified through a set of experiments with T5 and BERT backbones on GLUE, SuperGLUE, and WMT. In particular, we outperform T5-11B with an average computations speed-up of 3.3$\times$ on GLUE and 2.9$\times$ on SuperGLUE. We also achieve BERT-based SOTA on GLUE with 3.2$\times$ less computations. Code and demo are available in the supplementary materials.
Abstract（参考訳）: 巨大で高機能な言語モデルの構築は、ここ数年のトレンドです。性能は高いものの、計算コストが高い。一般的な解決策は、モデル圧縮を適用するか、あるいは軽量アーキテクチャを選択することである。本稿では,大規模高精度スーパーモデルと軽量スウィフトモデル間の推論を分散するE-LANGという動的推論手法を提案する。この目的のために、決定モジュールは、潜在空間における表現のエネルギー特性に基づいて、入力をスーパーまたはスウィフトモデルにルーティングする。この手法は容易に採用でき、アーキテクチャに依存しない。そのため、アーキテクチャ操作、モジュールの再組み立て、再トレーニングを必要とせずに、ブラックボックスの事前訓練モデルに適用することができる。エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,エンコーダ・デコーダ構造や翻訳などのシーケンス・ツー・シーケンスタスクにも機能する。 E-LANGの性能は、GLUE、SuperGLUE、WMT上でのT5とBERTのバックボーンによる一連の実験によって検証される。特に、平均計算速度はGLUEで3.3$\times$、SuperGLUEで2.9$\times$より優れている。 BERTベースのSOTAもGLUE上で3.2$\times$少ない計算で実現しています。コードとデモは補足資料で入手できる。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文参考訳（メタデータ） (2023-12-27T11:49:24Z)
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文参考訳（メタデータ） (2023-09-16T11:58:34Z)
NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive Decoders [9.400555345874988]
語彙化スコアリング機能を持つTransformerクロスアテンションモデルのゲインを最大86%取得する方法を提案する。本稿では,最近のエンコーダデコーダやデコーダのみの大規模言語モデルと互換性のあるモデルアーキテクチャとしてNAILを導入する。
論文参考訳（メタデータ） (2023-05-23T20:09:52Z)
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。 LLMは、推論時でさえ非常に計算コストが高い。モデル間での推論効率を比較するための新しい指標を提案する。
論文参考訳（メタデータ） (2023-05-03T21:51:42Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。 GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。 GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文参考訳（メタデータ） (2021-12-13T18:58:19Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文参考訳（メタデータ） (2021-08-07T00:39:42Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。