論文の概要: Don't Sweep your Learning Rate under the Rug: A Closer Look at
Cross-modal Transfer of Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2107.12460v1
- Date: Mon, 26 Jul 2021 20:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 04:16:09.658605
- Title: Don't Sweep your Learning Rate under the Rug: A Closer Look at
Cross-modal Transfer of Pretrained Transformers
- Title(参考訳): ラグビー場での学習速度を損なうな:事前学習型変圧器のクロスモーダル移動について
- Authors: Danielle Rothermel, Margaret Li, Tim Rockt\"aschel, Jakob Foerster
- Abstract要約: テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端の成果を上げている。
私たちの研究では、この結果が、実際に、学習率を調整しない成果物であることに気付きました。
- 参考スコア(独自算出の注目度): 1.9662978733004601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training of large-scale transformer models on text
corpora followed by finetuning has achieved state-of-the-art on a number of
natural language processing tasks. Recently, Lu et al. (2021, arXiv:2103.05247)
claimed that frozen pretrained transformers (FPTs) match or outperform training
from scratch as well as unfrozen (fine-tuned) pretrained transformers in a set
of transfer tasks to other modalities. In our work, we find that this result
is, in fact, an artifact of not tuning the learning rates. After carefully
redesigning the empirical setup, we find that when tuning learning rates
properly, pretrained transformers do outperform or match training from scratch
in all of our tasks, but only as long as the entire model is finetuned. Thus,
while transfer from pretrained language models to other modalities does indeed
provide gains and hints at exciting possibilities for future work, properly
tuning hyperparameters is important for arriving at robust findings.
- Abstract(参考訳): テキストコーパス上での大規模トランスフォーマーモデルの自己教師付き事前学習と微調整は,多くの自然言語処理タスクにおいて最先端を達成している。
最近、Lu et al。
(2021, arXiv:2103.05247) は、凍結事前訓練変圧器(FPT)は、スクラッチからのトレーニングと、他のモダリティへの一連の移行タスクにおける未凍結(微調整)事前訓練変圧器との整合性、あるいは性能に優れていると主張した。
私たちの研究では、この結果が実際に、学習率を調整しない成果物であることが分かりました。
経験的な設定を慎重に再設計した結果、学習率を適切に調整すると、トレーニング済みトランスフォーマーは、すべてのタスクにおいて、スクラッチからトレーニングを上回ったり、あるいは一致させるが、モデル全体が微調整されている限りは。
したがって、事前訓練された言語モデルから他のモダリティへの変換は、将来的な研究にエキサイティングな可能性をもたらす一方で、高パラメータを適切に調整することは、ロバストな結果に到達する上で重要である。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems [27.681141346132286]
多段階決定タスクに直面する場合の変圧器の訓練損失の迅速化について検討した。
合成タスクを用いて問題を詳細に研究するが、言語モデリングや文脈内学習にも性能の飛躍が観察できる。
我々は,言語モデリングとICLの訓練を改善するために,合成多段階タスクを改善するためのコネクションを見つけ,その方法を示す。
論文 参考訳(メタデータ) (2023-10-19T17:55:06Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。