Fugu-MT 論文翻訳(概要): Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems

論文の概要: Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems

arxiv url: http://arxiv.org/abs/2310.12956v1
Date: Thu, 19 Oct 2023 17:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 13:44:24.386121
Title: Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems
Title（参考訳）: 変圧器のエレウリカ-モーメント:マルチステップタスクがSoftmaxによる最適化問題を解き明かす
Authors: David T. Hoffmann, Simon Schrodi, Nadine Behrmann, Volker Fischer, Thomas Brox
Abstract要約: 我々は,多段階決定課題に直面した際の変圧器の損失の迅速かつ段階的な改善について検討した。この問題を変換器の自己保持ブロックのソフトマックス関数に遡り、問題を緩和する方法を示す。
参考スコア（独自算出の注目度）: 31.468047343395888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we study rapid, step-wise improvements of the loss in transformers when being confronted with multi-step decision tasks. We found that transformers struggle to learn the intermediate tasks, whereas CNNs have no such issue on the tasks we studied. When transformers learn the intermediate task, they do this rapidly and unexpectedly after both training and validation loss saturated for hundreds of epochs. We call these rapid improvements Eureka-moments, since the transformer appears to suddenly learn a previously incomprehensible task. Similar leaps in performance have become known as Grokking. In contrast to Grokking, for Eureka-moments, both the validation and the training loss saturate before rapidly improving. We trace the problem back to the Softmax function in the self-attention block of transformers and show ways to alleviate the problem. These fixes improve training speed. The improved models reach 95% of the baseline model in just 20% of training steps while having a much higher likelihood to learn the intermediate task, lead to higher final accuracy and are more robust to hyper-parameters.
Abstract（参考訳）: 本研究では,多段階決定タスクに直面した際の変圧器の損失の迅速かつ段階的な改善について検討する。トランスフォーマーが中間タスクを学ぶのに苦労しているのに対して、cnnは研究したタスクにそのような問題はないことがわかった。トランスフォーマは中間タスクを学習すると、数百エポックにわたってトレーニングと検証の損失が飽和した後、迅速かつ予期せぬほどこれを実行します。 Eureka-momentsと呼ばれるこの急激な改善は、トランスフォーマーが突然、理解不能なタスクを学習したように見えるためである。同様のパフォーマンスの飛躍はGrokkingとして知られるようになった。 grokkingとは対照的に、eureka-momentsでは、バリデーションとトレーニング損失の両方が急速に改善する前に飽和する。この問題をトランスフォーマーの自己アテンションブロックのソフトマックス関数に遡り、問題を緩和する方法を示す。これらの修正はトレーニング速度を改善する。改良されたモデルは、トレーニングステップのわずか20%でベースラインモデルの95%に達し、中間タスクを学習する確率がはるかに高く、最終的な精度が向上し、ハイパーパラメーターに対して堅牢である。

関連論文リスト

One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文参考訳（メタデータ） (2024-11-16T16:12:42Z)
Dissecting Multiplication in Transformers: Insights into LLMs [23.109124772063574]
本稿では,この領域における変圧器の不完全性を探索し,説明するために,典型的な算術的タスクである整数乗法に焦点を当てる。 n桁整数乗算を行うために訓練されたバニラ変圧器の包括的解析を行う。乗算タスクにおける変換器の性能向上のための改良を提案する。
論文参考訳（メタデータ） (2024-07-22T04:07:26Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Don't Sweep your Learning Rate under the Rug: A Closer Look at Cross-modal Transfer of Pretrained Transformers [1.9662978733004601]
テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
論文参考訳（メタデータ） (2021-07-26T20:20:48Z)
A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文参考訳（メタデータ） (2021-03-26T17:54:47Z)
Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。線形複雑リカレント変種は自己回帰生成に適していることが証明されている。この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文参考訳（メタデータ） (2021-03-24T10:50:43Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。