論文の概要: SHAQ: Single Headed Attention with Quasi-Recurrence
- arxiv url: http://arxiv.org/abs/2108.08207v1
- Date: Wed, 18 Aug 2021 15:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:54:27.676006
- Title: SHAQ: Single Headed Attention with Quasi-Recurrence
- Title(参考訳): SHAQ: 擬似再帰を伴う単一頭部注意
- Authors: Nashwin Bharwani, Warren Kushner, Sangeet Dandona, Ben Schreiber
- Abstract要約: 提案手法では, パラメータが大幅に少なく, トレーニング時間も少なく, 成果の近さに到達できるような, コンパクトでハイブリッドなアテンション-RNNモデルを提案する。
これらの知見をSHAQ: Single Headed Attention Quasi-Recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。
新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing research has recently been dominated by large
scale transformer models. Although they achieve state of the art on many
important language tasks, transformers often require expensive compute
resources, and days spanning to weeks to train. This is feasible for
researchers at big tech companies and leading research universities, but not
for scrappy start-up founders, students, and independent researchers. Stephen
Merity's SHA-RNN, a compact, hybrid attention-RNN model, is designed for
consumer-grade modeling as it requires significantly fewer parameters and less
training time to reach near state of the art results. We analyze Merity's model
here through an exploratory model analysis over several units of the
architecture considering both training time and overall quality in our
assessment. Ultimately, we combine these findings into a new architecture which
we call SHAQ: Single Headed Attention Quasi-recurrent Neural Network. With our
new architecture we achieved similar accuracy results as the SHA-RNN while
accomplishing a 4x speed boost in training.
- Abstract(参考訳): 自然言語処理の研究は最近、大規模なトランスフォーマーモデルに支配されている。
多くの重要な言語タスクで最先端を達成しているが、トランスフォーマーは高価な計算リソースを必要とし、トレーニングには数週間かかる。
これは、大企業や主要研究大学の研究者には実現可能だが、スタートアップのファウンダー、学生、そして独立した研究者にとっては不可能だ。
stephen merity氏のsha-rnnは、コンパクトでハイブリッドなアテンション-rnnモデルであり、消費者向けのモデリングのために設計されている。
ここでは,アーキテクチャの複数のユニットを対象とした探索的モデル解析を行い,学習時間と総合的品質の両方を考慮したモデルの解析を行った。
最終的に、これらの知見をSHAQ: Single Headed Attention Quasi-recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。
新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。
関連論文リスト
- LLM Circuit Analyses Are Consistent Across Training and Scale [10.518477254902244]
我々は,デコーダのみの言語モデルにおいて,300億の訓練トークンにまたがるモデル機構の出現と進化について検討する。
タスク能力とそれらをサポートする機能コンポーネントは、スケールにわたって同じトークン数で一貫して現れます。
これらの結果から, 事前学習終了時の小モデルに対する回路解析は, 追加の事前学習やモデルスケールの超越後においても適用可能な知見を与えることが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-15T15:38:51Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - RobustART: Benchmarking Robustness on Architecture Design and Training
Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。
本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文 参考訳(メタデータ) (2021-09-11T08:01:14Z) - Balancing Accuracy and Latency in Multipath Neural Networks [0.09668407688201358]
我々は,一発のニューラルネットワーク探索モデルを用いて,難解な数のニューラルネットワークの性能を暗黙的に評価する。
本手法は,待ち時間が異なるモデル間の相対性能を正確にモデル化し,異なるデータセットをまたいだ精度で未検出モデルの性能を予測できることを示す。
論文 参考訳(メタデータ) (2021-04-25T00:05:48Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。