論文の概要: LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models
- arxiv url: http://arxiv.org/abs/2203.02094v1
- Date: Fri, 4 Mar 2022 02:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 23:39:36.174556
- Title: LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models
- Title(参考訳): LiteTransformerSearch: 効率的な自己回帰型言語モデルのためのトレーニング不要なオンデバイス検索
- Authors: Mojan Javaheripi, Shital Shah, Subhabrata Mukherjee, Tomasz L. Religa,
Caio C. T. Mendes, Gustavo H. de Rosa, Sebastien Bubeck, Farinaz Koushanfar,
Debadeepta Dey
- Abstract要約: モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
- 参考スコア(独自算出の注目度): 34.673688610935876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture is ubiquitously used as the building block of
most large-scale language models. However, it remains a painstaking guessing
game of trial and error to set its myriad of architectural hyperparameters,
e.g., number of layers, number of attention heads, and inner size of the feed
forward network, and find architectures with the optimal trade-off between task
performance like perplexity and compute constraints like memory and latency.
This challenge is further exacerbated by the proliferation of various hardware.
In this work, we leverage the somewhat surprising empirical observation that
the number of non-embedding parameters in autoregressive transformers has a
high rank correlation with task performance, irrespective of the architectural
hyperparameters. Since architectural hyperparameters affect the latency and
memory footprint in a hardware-dependent manner, the above observation
organically induces a simple search algorithm that can be directly run on
target devices. We rigorously show that the latency and perplexity
pareto-frontier can be found without need for any model training, using
non-embedding parameters as a proxy for perplexity. We evaluate our method,
dubbed Lightweight Transformer Search (LTS), on diverse devices from ARM CPUs
to Nvidia GPUs and show that the perplexity of Transformer-XL can be achieved
with up to 2x lower latency. LTS extracts the pareto-frontier in less than 3
hours while running on a commodity laptop. We effectively remove the carbon
footprint of training for hundreds of GPU hours, offering a strong simple
baseline for future NAS methods in autoregressive language modeling.
- Abstract(参考訳): トランスアーキテクチャは、ほとんどの大規模言語モデルの構成要素として広く使われている。
しかし、試行錯誤のゲームとして、レイヤ数、アテンションヘッド数、フィードフォワードネットワークの内部サイズなど、無数のアーキテクチャハイパーパラメータを設定し、複雑なタスクパフォーマンスとメモリやレイテンシといった計算制約の間の最適なトレードオフを持つアーキテクチャを見つけることは、依然として困難である。
この課題は、様々なハードウェアの普及によってさらに悪化する。
本研究では, 自己回帰変換器における非埋め込みパラメータの数が, アーキテクチャのハイパーパラメータによらず, タスク性能と高い相関性を有することを示す。
アーキテクチャのハイパーパラメータはハードウェアに依存した遅延とメモリフットプリントに影響を与えるため、上記の観測は、ターゲットデバイス上で直接実行できる単純な探索アルゴリズムを有機的に誘導する。
我々は,非埋め込みパラメータをパープレキシティのプロキシとして使用することにより,モデルトレーニングを必要とせずに,レイテンシとパープレキシティ・パレート・フロンティアが発見できることを厳格に示す。
ARM CPUからNvidia GPUまで多種多様なデバイス上での軽量トランスフォーマーサーチ(LTS)という手法を評価し,最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することを示す。
LTSは、コモディティラップトップ上で実行中に、3時間以内でパレトフロンティアを抽出する。
自動回帰言語モデリングにおける将来のNASメソッドのための強力なシンプルなベースラインを提供するため、数百時間にわたるトレーニングのカーボンフットプリントを効果的に除去する。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Multi-objective Differentiable Neural Architecture Search [58.67218773054753]
本研究では,パフォーマンスとハードウェアメトリクスのトレードオフのために,ユーザの好みを符号化するNASアルゴリズムを提案する。
提案手法は,既存のMOO NAS手法を,定性的に異なる検索空間やデータセットの広い範囲で性能良くする。
論文 参考訳(メタデータ) (2024-02-28T10:09:04Z) - LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre
Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。
繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。
本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文 参考訳(メタデータ) (2024-01-20T01:10:18Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。