論文の概要: Simple Recurrence Improves Masked Language Models
- arxiv url: http://arxiv.org/abs/2205.11588v1
- Date: Mon, 23 May 2022 19:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 08:57:23.742578
- Title: Simple Recurrence Improves Masked Language Models
- Title(参考訳): マスク言語モデルを改善したシンプルなリピート
- Authors: Tao Lei, Ran Tian, Jasmijn Bastings, Ankur P. Parikh
- Abstract要約: 再帰性は、低レベルのパフォーマンス最適化を必要とせずに、一貫したマージンでトランスフォーマーモデルを改善することができる。
その結果,低レベルの性能最適化を必要とせずにトランスフォーマーモデルを一貫したマージンで再現できることが確認された。
- 参考スコア(独自算出の注目度): 20.80840931168549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore whether modeling recurrence into the Transformer
architecture can both be beneficial and efficient, by building an extremely
simple recurrent module into the Transformer. We compare our model to baselines
following the training and evaluation recipe of BERT. Our results confirm that
recurrence can indeed improve Transformer models by a consistent margin,
without requiring low-level performance optimizations, and while keeping the
number of parameters constant. For example, our base model achieves an absolute
improvement of 2.1 points averaged across 10 tasks and also demonstrates
increased stability in fine-tuning over a range of learning rates.
- Abstract(参考訳): 本研究では,超単純な再帰モジュールをトランスフォーマーに組み込むことにより,トランスフォーマーアーキテクチャへのモデリング再帰が有益かつ効率的かどうかを検討する。
BERTのトレーニングと評価のレシピに従って,本モデルとベースラインを比較した。
その結果,パラメータ数を一定に保ちつつ,低レベルの性能最適化を必要とせずにトランスフォーマーモデルを一貫したマージンで再現できることが確認された。
例えば、我々のベースモデルは10タスクで平均2.1ポイントの絶対的な改善を実現し、また、様々な学習速度における微調整の安定性の向上を示す。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Improving Transformer-Kernel Ranking Model Using Conformer and Query
Term Independence [29.442579683405913]
Transformer-Kernel(TK)モデルは、TREC Deep Learningベンチマークで強力なリランクパフォーマンスを示しています。
TKLと呼ばれるTKモデルの変種が開発され、より長い入力シーケンスを効率的に処理するためにローカルの自己意識が組み込まれている。
本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。
論文 参考訳(メタデータ) (2021-04-19T15:32:34Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。