Fugu-MT 論文翻訳(概要): SHAQ: Single Headed Attention with Quasi-Recurrence

論文の概要: SHAQ: Single Headed Attention with Quasi-Recurrence

arxiv url: http://arxiv.org/abs/2108.08207v1
Date: Wed, 18 Aug 2021 15:38:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-19 14:54:27.676006
Title: SHAQ: Single Headed Attention with Quasi-Recurrence
Title（参考訳）: SHAQ: 擬似再帰を伴う単一頭部注意
Authors: Nashwin Bharwani, Warren Kushner, Sangeet Dandona, Ben Schreiber
Abstract要約: 提案手法では, パラメータが大幅に少なく, トレーニング時間も少なく, 成果の近さに到達できるような, コンパクトでハイブリッドなアテンション-RNNモデルを提案する。これらの知見をSHAQ: Single Headed Attention Quasi-Recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural Language Processing research has recently been dominated by large scale transformer models. Although they achieve state of the art on many important language tasks, transformers often require expensive compute resources, and days spanning to weeks to train. This is feasible for researchers at big tech companies and leading research universities, but not for scrappy start-up founders, students, and independent researchers. Stephen Merity's SHA-RNN, a compact, hybrid attention-RNN model, is designed for consumer-grade modeling as it requires significantly fewer parameters and less training time to reach near state of the art results. We analyze Merity's model here through an exploratory model analysis over several units of the architecture considering both training time and overall quality in our assessment. Ultimately, we combine these findings into a new architecture which we call SHAQ: Single Headed Attention Quasi-recurrent Neural Network. With our new architecture we achieved similar accuracy results as the SHA-RNN while accomplishing a 4x speed boost in training.
Abstract（参考訳）: 自然言語処理の研究は最近、大規模なトランスフォーマーモデルに支配されている。多くの重要な言語タスクで最先端を達成しているが、トランスフォーマーは高価な計算リソースを必要とし、トレーニングには数週間かかる。これは、大企業や主要研究大学の研究者には実現可能だが、スタートアップのファウンダー、学生、そして独立した研究者にとっては不可能だ。 stephen merity氏のsha-rnnは、コンパクトでハイブリッドなアテンション-rnnモデルであり、消費者向けのモデリングのために設計されている。ここでは,アーキテクチャの複数のユニットを対象とした探索的モデル解析を行い,学習時間と総合的品質の両方を考慮したモデルの解析を行った。最終的に、これらの知見をSHAQ: Single Headed Attention Quasi-recurrent Neural Networkと呼ぶ新しいアーキテクチャに組み合わせる。新しいアーキテクチャでは、SHA-RNNと同様の精度でトレーニングの4倍の高速化を実現しました。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2025-04-10T17:57:28Z)
LLM Circuit Analyses Are Consistent Across Training and Scale [10.518477254902244]
我々は,デコーダのみの言語モデルにおいて,300億の訓練トークンにまたがるモデル機構の出現と進化について検討する。タスク能力とそれらをサポートする機能コンポーネントは、スケールにわたって同じトークン数で一貫して現れます。これらの結果から, 事前学習終了時の小モデルに対する回路解析は, 追加の事前学習やモデルスケールの超越後においても適用可能な知見を与えることが可能であることが示唆された。
論文参考訳（メタデータ） (2024-07-15T15:38:51Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文参考訳（メタデータ） (2023-04-28T15:43:21Z)
RobustART: Benchmarking Robustness on Architecture Design and Training Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文参考訳（メタデータ） (2021-09-11T08:01:14Z)
Balancing Accuracy and Latency in Multipath Neural Networks [0.09668407688201358]
我々は,一発のニューラルネットワーク探索モデルを用いて,難解な数のニューラルネットワークの性能を暗黙的に評価する。本手法は,待ち時間が異なるモデル間の相対性能を正確にモデル化し,異なるデータセットをまたいだ精度で未検出モデルの性能を予測できることを示す。
論文参考訳（メタデータ） (2021-04-25T00:05:48Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)
BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文参考訳（メタデータ） (2020-03-24T23:00:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。