論文の概要: Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced
Optimization Problems
- arxiv url: http://arxiv.org/abs/2310.12956v1
- Date: Thu, 19 Oct 2023 17:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:44:24.386121
- Title: Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced
Optimization Problems
- Title(参考訳): 変圧器のエレウリカ-モーメント:マルチステップタスクがSoftmaxによる最適化問題を解き明かす
- Authors: David T. Hoffmann, Simon Schrodi, Nadine Behrmann, Volker Fischer,
Thomas Brox
- Abstract要約: 我々は,多段階決定課題に直面した際の変圧器の損失の迅速かつ段階的な改善について検討した。
この問題を変換器の自己保持ブロックのソフトマックス関数に遡り、問題を緩和する方法を示す。
- 参考スコア(独自算出の注目度): 31.468047343395888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study rapid, step-wise improvements of the loss in
transformers when being confronted with multi-step decision tasks. We found
that transformers struggle to learn the intermediate tasks, whereas CNNs have
no such issue on the tasks we studied. When transformers learn the intermediate
task, they do this rapidly and unexpectedly after both training and validation
loss saturated for hundreds of epochs. We call these rapid improvements
Eureka-moments, since the transformer appears to suddenly learn a previously
incomprehensible task. Similar leaps in performance have become known as
Grokking. In contrast to Grokking, for Eureka-moments, both the validation and
the training loss saturate before rapidly improving. We trace the problem back
to the Softmax function in the self-attention block of transformers and show
ways to alleviate the problem. These fixes improve training speed. The improved
models reach 95% of the baseline model in just 20% of training steps while
having a much higher likelihood to learn the intermediate task, lead to higher
final accuracy and are more robust to hyper-parameters.
- Abstract(参考訳): 本研究では,多段階決定タスクに直面した際の変圧器の損失の迅速かつ段階的な改善について検討する。
トランスフォーマーが中間タスクを学ぶのに苦労しているのに対して、cnnは研究したタスクにそのような問題はないことがわかった。
トランスフォーマは中間タスクを学習すると、数百エポックにわたってトレーニングと検証の損失が飽和した後、迅速かつ予期せぬほどこれを実行します。
Eureka-momentsと呼ばれるこの急激な改善は、トランスフォーマーが突然、理解不能なタスクを学習したように見えるためである。
同様のパフォーマンスの飛躍はGrokkingとして知られるようになった。
grokkingとは対照的に、eureka-momentsでは、バリデーションとトレーニング損失の両方が急速に改善する前に飽和する。
この問題をトランスフォーマーの自己アテンションブロックのソフトマックス関数に遡り、問題を緩和する方法を示す。
これらの修正はトレーニング速度を改善する。
改良されたモデルは、トレーニングステップのわずか20%でベースラインモデルの95%に達し、中間タスクを学習する確率がはるかに高く、最終的な精度が向上し、ハイパーパラメーターに対して堅牢である。
関連論文リスト
- COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Don't Sweep your Learning Rate under the Rug: A Closer Look at
Cross-modal Transfer of Pretrained Transformers [1.9662978733004601]
テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。
私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
論文 参考訳(メタデータ) (2021-07-26T20:20:48Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Shortformer: Better Language Modeling using Shorter Inputs [62.51758040848735]
当初、モデルを短いサブシーケンスでトレーニングした後、長いサブシーケンスに移行する前に、どちらもトレーニング時間を短縮することを示す。
次に, 変圧器における再帰法の効率を改善する方法を示す。
論文 参考訳(メタデータ) (2020-12-31T18:52:59Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。