論文の概要: Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems
- arxiv url: http://arxiv.org/abs/2310.12956v2
- Date: Thu, 6 Jun 2024 17:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:29:50.131521
- Title: Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems
- Title(参考訳): 変圧器のエレウリカ-モーメント:マルチステップタスクがSoftmaxによる最適化問題を解き明かす
- Authors: David T. Hoffmann, Simon Schrodi, Jelena Bratulić, Nadine Behrmann, Volker Fischer, Thomas Brox,
- Abstract要約: 多段階決定タスクに直面する場合の変圧器の訓練損失の迅速化について検討した。
合成タスクを用いて問題を詳細に研究するが、言語モデリングや文脈内学習にも性能の飛躍が観察できる。
我々は,言語モデリングとICLの訓練を改善するために,合成多段階タスクを改善するためのコネクションを見つけ,その方法を示す。
- 参考スコア(独自算出の注目度): 27.681141346132286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study rapid improvements of the training loss in transformers when being confronted with multi-step decision tasks. We found that transformers struggle to learn the intermediate task and both training and validation loss saturate for hundreds of epochs. When transformers finally learn the intermediate task, they do this rapidly and unexpectedly. We call these abrupt improvements Eureka-moments, since the transformer appears to suddenly learn a previously incomprehensible concept. We designed synthetic tasks to study the problem in detail, but the leaps in performance can be observed also for language modeling and in-context learning (ICL). We suspect that these abrupt transitions are caused by the multi-step nature of these tasks. Indeed, we find connections and show that ways to improve on the synthetic multi-step tasks can be used to improve the training of language modeling and ICL. Using the synthetic data we trace the problem back to the Softmax function in the self-attention block of transformers and show ways to alleviate the problem. These fixes reduce the required number of training steps, lead to higher likelihood to learn the intermediate task, to higher final accuracy and training becomes more robust to hyper-parameters.
- Abstract(参考訳): 本研究では,多段階決定タスクに直面する場合の変圧器の訓練損失の迅速化について検討する。
トランスフォーマーは中間的なタスクを学習するのに苦労し、トレーニングとバリデーションの損失は数百のエポックで飽和していることがわかった。
トランスフォーマーが最終的に中間タスクを学習すると、彼らはこれを素早く、そして予期せずに実行します。
我々はこの急激な改善をユーレカモーメント(Eureka-moments)と呼んでいる。
我々は,問題を詳細に研究するために合成タスクを設計したが,言語モデリングやテキスト内学習(ICL)にも性能の飛躍が観察できる。
これらの急激な遷移は、これらのタスクの多段階的な性質によって引き起こされると考えられる。
実際、私たちは接続を見つけ、言語モデリングとICLの訓練を改善するために、合成多段階タスクを改善する方法を示す。
合成データを用いて、変換器の自己保持ブロックのソフトマックス関数に問題をトレースし、問題を緩和する方法を示す。
これらの修正は、必要なトレーニングステップ数を削減し、中間タスクを学習する可能性を高め、最終的な精度を高め、トレーニングはハイパーパラメータに対してより堅牢になる。
関連論文リスト
- Dissecting Multiplication in Transformers: Insights into LLMs [23.109124772063574]
本稿では,この領域における変圧器の不完全性を探索し,説明するために,典型的な算術的タスクである整数乗法に焦点を当てる。
n桁整数乗算を行うために訓練されたバニラ変圧器の包括的解析を行う。
乗算タスクにおける変換器の性能向上のための改良を提案する。
論文 参考訳(メタデータ) (2024-07-22T04:07:26Z) - Transformers for Supervised Online Continual Learning [11.270594318662233]
オンライン連続学習に変換器のコンテキスト内学習機能を活用する手法を提案する。
本手法は,画像位置定位のための大規模実世界ベンチマークであるCLOCにおいて,過去の最先端結果よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-03-03T16:12:20Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Don't Sweep your Learning Rate under the Rug: A Closer Look at
Cross-modal Transfer of Pretrained Transformers [1.9662978733004601]
テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。
私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
論文 参考訳(メタデータ) (2021-07-26T20:20:48Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。