論文の概要: Transformer models: an introduction and catalog
- arxiv url: http://arxiv.org/abs/2302.07730v4
- Date: Sun, 31 Mar 2024 21:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 14:01:34.984517
- Title: Transformer models: an introduction and catalog
- Title(参考訳): トランスフォーマーモデル:導入とカタログ
- Authors: Xavier Amatriain, Ananth Sankar, Jie Bing, Praveen Kumar Bodigutla, Timothy J. Hazen, Michaeel Kazi,
- Abstract要約: 本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。
私たちのカタログには、自己教師付き学習(BERTやGPT3など)でトレーニングされたモデルと、さらにヒューマン・イン・ザ・ループでトレーニングされたモデルが含まれます。
- 参考スコア(独自算出の注目度): 9.307643810343999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past few years we have seen the meteoric appearance of dozens of foundation models of the Transformer family, all of which have memorable and sometimes funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovations in Transformer models. Our catalog will include models that are trained using self-supervised learning (e.g., BERT or GPT3) as well as those that are further trained using a human-in-the-loop (e.g. the InstructGPT model used by ChatGPT).
- Abstract(参考訳): 過去数年間で、トランスフォーマーファミリーの何十もの基礎モデルが出現し、それらは記憶に残る、時折面白いが、自己説明的な名前ではない。
本論文の目的は,最もポピュラーなTransformerモデルのカタログと分類を提供することである。
論文には、Transformerモデルにおける最も重要な側面とイノベーションの紹介も含まれている。
我々のカタログには、自己教師付き学習(例えば、BERT、GPT3)でトレーニングされたモデルと、さらに人間-イン-ザ-ループ(例えば、ChatGPTで使用されるインストラクトGPTモデル)でトレーニングされたモデルが含まれます。
関連論文リスト
- Transformer Explainer: Interactive Learning of Text-Generative Models [65.91049787390692]
Transformer Explainerは、GPT-2モデルを通じてTransformerについて学ぶために非専門家向けに設計されたインタラクティブな可視化ツールである。
ライブのGPT-2インスタンスをユーザのブラウザでローカルに実行し、ユーザが自身の入力を実験し、Transformerの内部コンポーネントとパラメータの協調動作をリアルタイムで観察することを可能にする。
論文 参考訳(メタデータ) (2024-08-08T17:49:07Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - RealFormer: Transformer Likes Residual Attention [5.841046725396454]
RealFormerはシンプルなResidual Attention Layer Transformerアーキテクチャである。
これは、Masked Language Modeling、GLUE、SQuADなどのタスクのスペクトルで正規トランスフォーマーを大幅に上回っています。
論文 参考訳(メタデータ) (2020-12-21T23:30:04Z) - Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文 参考訳(メタデータ) (2020-12-01T09:39:13Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。