論文の概要: SHAQ: Single Headed Attention with Quasi-Recurrence
- arxiv url: http://arxiv.org/abs/2108.08207v1
- Date: Wed, 18 Aug 2021 15:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:54:27.676006
- Title: SHAQ: Single Headed Attention with Quasi-Recurrence
- Title(参考訳): SHAQ: 擬似再帰を伴う単一頭部注意
- Authors: Nashwin Bharwani, Warren Kushner, Sangeet Dandona, Ben Schreiber
- Abstract要約: 提案手法では, パラメータが大幅に少なく, トレーニング時間も少なく, 成果の近さに到達できるような, コンパクトでハイブリッドなアテンション-RNNモデルを提案する。
これらの知見をSHAQ: Single Headed Attention Quasi-Recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。
新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing research has recently been dominated by large
scale transformer models. Although they achieve state of the art on many
important language tasks, transformers often require expensive compute
resources, and days spanning to weeks to train. This is feasible for
researchers at big tech companies and leading research universities, but not
for scrappy start-up founders, students, and independent researchers. Stephen
Merity's SHA-RNN, a compact, hybrid attention-RNN model, is designed for
consumer-grade modeling as it requires significantly fewer parameters and less
training time to reach near state of the art results. We analyze Merity's model
here through an exploratory model analysis over several units of the
architecture considering both training time and overall quality in our
assessment. Ultimately, we combine these findings into a new architecture which
we call SHAQ: Single Headed Attention Quasi-recurrent Neural Network. With our
new architecture we achieved similar accuracy results as the SHA-RNN while
accomplishing a 4x speed boost in training.
- Abstract(参考訳): 自然言語処理の研究は最近、大規模なトランスフォーマーモデルに支配されている。
多くの重要な言語タスクで最先端を達成しているが、トランスフォーマーは高価な計算リソースを必要とし、トレーニングには数週間かかる。
これは、大企業や主要研究大学の研究者には実現可能だが、スタートアップのファウンダー、学生、そして独立した研究者にとっては不可能だ。
stephen merity氏のsha-rnnは、コンパクトでハイブリッドなアテンション-rnnモデルであり、消費者向けのモデリングのために設計されている。
ここでは,アーキテクチャの複数のユニットを対象とした探索的モデル解析を行い,学習時間と総合的品質の両方を考慮したモデルの解析を行った。
最終的に、これらの知見をSHAQ: Single Headed Attention Quasi-recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。
新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。
関連論文リスト
- The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - SpikeGPT: Generative Pre-trained Language Model with Spiking Neural
Networks [10.575541943697733]
スパイキングニューラルネットワーク(SNN)はスパースとイベント駆動のアクティベーションを活用して、モデル推論に関連する計算オーバーヘッドを削減する。
イベント駆動型スパイクアクティベーションユニットを用いた生成言語モデルを実装した。
SpikeGPTは、これまでで最大のバックプロパゲーション訓練SNNモデルであり、自然言語の生成と理解の両方に適している。
論文 参考訳(メタデータ) (2023-02-27T16:43:04Z) - RobustART: Benchmarking Robustness on Architecture Design and Training
Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。
本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文 参考訳(メタデータ) (2021-09-11T08:01:14Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Balancing Accuracy and Latency in Multipath Neural Networks [0.09668407688201358]
我々は,一発のニューラルネットワーク探索モデルを用いて,難解な数のニューラルネットワークの性能を暗黙的に評価する。
本手法は,待ち時間が異なるモデル間の相対性能を正確にモデル化し,異なるデータセットをまたいだ精度で未検出モデルの性能を予測できることを示す。
論文 参考訳(メタデータ) (2021-04-25T00:05:48Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。