論文の概要: A Quantitative Review on Language Model Efficiency Research
- arxiv url: http://arxiv.org/abs/2306.01768v1
- Date: Sun, 28 May 2023 20:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:58:20.734530
- Title: A Quantitative Review on Language Model Efficiency Research
- Title(参考訳): 言語モデル効率研究の定量的考察
- Authors: Meng Jiang, Hy Dang, Lingbo Tong
- Abstract要約: 状態空間モデル(SSM)は、非アテンション機構を持つ長距離シーケンスをモデル化する能力を示した。
本稿では、効率的なトランスフォーマーに関する一連の論文とSSMに関する論文のメタ分析を行う。
- 参考スコア(独自算出の注目度): 14.943379954590652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are being scaled and becoming powerful. Improving their
efficiency is one of the core research topics in neural information processing
systems. Tay et al. (2022) provided a comprehensive overview of efficient
Transformers that have become an indispensable staple in the field of NLP.
However, in the section of "On Evaluation", they left an open question "which
fundamental efficient Transformer one should consider," answered by "still a
mystery" because "many research papers select their own benchmarks."
Unfortunately, there was not quantitative analysis about the performances of
Transformers on any benchmarks. Moreover, state space models (SSMs) have
demonstrated their abilities of modeling long-range sequences with
non-attention mechanisms, which were not discussed in the prior review. This
article makes a meta analysis on the results from a set of papers on efficient
Transformers as well as those on SSMs. It provides a quantitative review on LM
efficiency research and gives suggestions for future research.
- Abstract(参考訳): 言語モデル(LM)は拡張され、強力になっています。
効率の向上は、ニューラル情報処理システムの中核的な研究テーマの1つである。
tay et al. (2022) はnlpの分野において必須となる効率的なトランスフォーマーの包括的な概要を提供した。
しかし、『オン・アセスメント』のセクションでは、「多くの研究論文が独自のベンチマークを選択している」ため、彼らは「どの基本的な効率的なトランスフォーマーが考慮すべきか」というオープンな疑問を残した。
残念ながら、あらゆるベンチマークでTransformerのパフォーマンスについて定量的な分析は行われなかった。
さらに、状態空間モデル(SSM)は、前回レビューでは議論されなかった非アテンション機構を持つ長距離シーケンスをモデル化する能力を示した。
本稿では、効率的なトランスフォーマーに関する一連の論文およびssmsに関する論文から得られた結果についてメタ分析を行う。
lm効率研究の定量的なレビューと今後の研究への提案を提供する。
関連論文リスト
- A Survey on Transformers in NLP with Focus on Efficiency [2.7651063843287718]
本稿では,NLPの進化とその応用について,その精度を有効性として論じる。
本調査の目的は,現在のNLP技術が持続可能な社会にどのように貢献するかを明らかにすることである。
論文 参考訳(メタデータ) (2024-05-15T10:32:41Z) - State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers [7.89533262149443]
トランスフォーマーの自己注意は、2次計算の複雑さのために高い計算コストが伴う。
我々のベンチマークは、高解像度画像よりも、一般により大きなモデルを使用することの方が効率的であることを示している。
論文 参考訳(メタデータ) (2023-08-18T08:06:49Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。