論文の概要: Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models
- arxiv url: http://arxiv.org/abs/2403.09635v1
- Date: Thu, 14 Mar 2024 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 18:57:03.157471
- Title: Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models
- Title(参考訳): トランスフォーマーが安定する: 言語モデルのためのエンドツーエンド信号伝搬理論
- Authors: Akhil Kedia, Mohd Abbas Zaidi, Sushil Khyalia, Jungho Jung, Harshith Goka, Haejun Lee,
- Abstract要約: 本研究では, 変換器モデルを用いて, 前方信号のモーメントと後方信号のモーメントを制御できる統一信号伝搬理論を開発し, 公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
- 参考スコア(独自算出の注目度): 6.809572275782338
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In spite of their huge success, transformer models remain difficult to scale in depth. In this work, we develop a unified signal propagation theory and provide formulae that govern the moments of the forward and backward signal through the transformer model. Our framework can be used to understand and mitigate vanishing/exploding gradients, rank collapse, and instability associated with high attention scores. We also propose DeepScaleLM, an initialization and scaling scheme that conserves unit output/gradient moments throughout the model, enabling the training of very deep models with 100s of layers. We find that transformer models could be much deeper - our deep models with fewer parameters outperform shallow models in Language Modeling, Speech Translation, and Image Classification, across Encoder-only, Decoder-only and Encoder-Decoder variants, for both Pre-LN and Post-LN transformers, for multiple datasets and model sizes. These improvements also translate into improved performance on downstream Question Answering tasks and improved robustness for image classification.
- Abstract(参考訳): 彼らの大きな成功にもかかわらず、トランスフォーマーモデルは深さのスケールが難しいままである。
本研究では,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論と公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
また、モデル全体を通して単位出力/漸進モーメントを保存する初期化およびスケーリングスキームであるDeepScaleLMを提案し、100の層を持つ非常に深いモデルのトレーニングを可能にした。
言語モデリング、音声翻訳、画像分類において浅いモデルよりも少ないパラメータを持つ私たちのディープモデルは、複数のデータセットとモデルサイズに対して、Encoder-only、Decoder-only、Encoder-Decoder の変種に対して、Pre-LNとPost-LNのトランスフォーマーよりも優れている。
これらの改善は、ダウンストリーム質問回答タスクのパフォーマンス向上や、画像分類の堅牢性向上にも寄与する。
関連論文リスト
- Making the Most of your Model: Methods for Finetuning and Applying Pretrained Transformers [0.21756081703276003]
この論文は、この目標を前進させるモデルの方法と分析を提供する。
使用するモデルに新たな機能を追加する2つの新しいファインタニング手法を導入する。
モデルライクリフと出力品質のばらつきに関する理論的および実証的な知見を提供する。
論文 参考訳(メタデータ) (2024-08-29T03:50:24Z) - Freely Long-Thinking Transformer (FraiLT) [0.0]
Freely Long-Thinking Transformer (FraiLT) は、サイズをスケールアップすることなく処理能力を向上させるために設計された改良型トランスモデルである。
FraiLTは再帰的アプローチを採用し、レイヤのサブセットを複数回反復し、繰り返しエンコーディングを導入して、これらのサイクル間の認識を維持する。
合成ストーリーデータセットで評価すると、FraiLTはより大きなモデルよりも優れており、メモリ要求を減らしながら高品質のパフォーマンスを提供する能力を示している。
論文 参考訳(メタデータ) (2024-01-21T23:37:33Z) - I3D: Transformer architectures with input-dependent dynamic depth for
speech recognition [41.35563331283372]
本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。
また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
論文 参考訳(メタデータ) (2023-03-14T04:47:00Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - TERA: Self-Supervised Learning of Transformer Encoder Representation for
Speech [63.03318307254081]
TERA は Transformer Representations from Alteration の略である。
我々は3つの軸に沿った変形を用いて、大量のラベルなし音声でトランスフォーマーを事前訓練する。
TERAは、音声表現の抽出や下流モデルによる微調整に使用することができる。
論文 参考訳(メタデータ) (2020-07-12T16:19:00Z) - Learning to Encode Position for Transformer with Continuous Dynamical
Model [88.69870971415591]
本研究では,トランスフォーマーモデルなどの非リカレントモデルの位置情報をエンコードする新しい学習方法を提案する。
このような力学系による位置指数に沿った符号化結果の進化をモデル化する。
論文 参考訳(メタデータ) (2020-03-13T00:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。