論文の概要: Supplementary Material: Implementation and Experiments for GAU-based
Model
- arxiv url: http://arxiv.org/abs/2205.05842v1
- Date: Thu, 12 May 2022 02:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:01:05.604753
- Title: Supplementary Material: Implementation and Experiments for GAU-based
Model
- Title(参考訳): 補助材料:GAUモデルの実装と実験
- Authors: Zhenjie Liu
- Abstract要約: 今年2月にGoogleは、高速でVRAMフットプリントが低く、パフォーマンスが向上した新しいTransformer variantであるFLASHを提案した。
これはGAU(Gated Attention Unit)と呼ばれるパフォーマンス層を設計することで実現される。
次に,新しいGAUモデルを提案し,そのモデルを中国語コーパス上で事前学習する。
CLUEベンチマークの結果、我々のモデルは、RoFormerV1よりも平均75.02、1%高く、45%速く、RoFormerV2と競合する結果となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In February this year Google proposed a new Transformer variant called FLASH,
which has a faster speed, lower VRAM footprint and better performance. This is
achieved by designing a performant layer named GAU (Gated Attention Unit),
which combines the Attention layer and FFN. In this paper, some implementation
details are re-analyzed both theoretically and practically. We then propose a
novel GAU-based model and pre-train it model on a Chinese corpus. Results of
the CLUE benchmark show that our model achieves a dev average score of 75.02,
1% higher than RoFormerV1 and being 45% faster, which is also competitive with
RoFormerV2.
- Abstract(参考訳): 今年2月にGoogleは、高速でVRAMフットプリントが低く、パフォーマンスが向上した新しいTransformer variantであるFLASHを提案した。
これは、アテンション層とffnを組み合わせたgau(gated attention unit)と呼ばれるパフォーマンス層を設計することによって達成される。
本稿では,実装の詳細を理論的および実際的に再分析する。
次に,新しいGAUモデルを提案し,そのモデルを中国語コーパス上で事前学習する。
ベンチマークの結果、このモデルは開発平均スコア75.02、roformerv1より1%高く、45%高速であり、roformerv2とも競合していることがわかった。
関連論文リスト
- An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Improving Transformer-Kernel Ranking Model Using Conformer and Query
Term Independence [29.442579683405913]
Transformer-Kernel(TK)モデルは、TREC Deep Learningベンチマークで強力なリランクパフォーマンスを示しています。
TKLと呼ばれるTKモデルの変種が開発され、より長い入力シーケンスを効率的に処理するためにローカルの自己意識が組み込まれている。
本稿では,より長い入力列にtkをスケールするための代替手法として,新しい適合層を提案する。
論文 参考訳(メタデータ) (2021-04-19T15:32:34Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z) - BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge [2.675158177232256]
本稿では,BUTとTelef'onicaによる音声認識システムの開発における共同研究について述べる。
ハイブリッドモデルとエンドツーエンドモデルの両方に基づいたアプローチを比較する。
最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。
論文 参考訳(メタデータ) (2021-01-29T18:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。