論文の概要: Mnemosyne: Learning to Train Transformers with Transformers
- arxiv url: http://arxiv.org/abs/2302.01128v2
- Date: Thu, 15 Jun 2023 14:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:25:30.260948
- Title: Mnemosyne: Learning to Train Transformers with Transformers
- Title(参考訳): mnemosyne:トランスフォーマーによるトランスフォーマーのトレーニングを学ぶ
- Authors: Deepali Jain, Krzysztof Marcin Choromanski, Avinava Dubey, Sumeet
Singh, Vikas Sindhwani, Tingnan Zhang, Jie Tan
- Abstract要約: 暗黙の低ランクアテンション変換器であるPerformersを用いたMnemosyneを提案する。
タスク固有のチューニングを必要とせずに、他のトランスフォーマーを含む、ニューラルネットワーク全体のトレーニングを学ぶことができる。
- 参考スコア(独自算出の注目度): 18.36543176998175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training complex machine learning (ML) architectures requires a compute and
time consuming process of selecting the right optimizer and tuning its
hyper-parameters. A new paradigm of learning optimizers from data has emerged
as a better alternative to hand-designed ML optimizers. We propose Mnemosyne
optimizer, that uses Performers: implicit low-rank attention Transformers. It
can learn to train entire neural network architectures including other
Transformers without any task-specific optimizer tuning. We show that
Mnemosyne: (a) generalizes better than popular LSTM optimizer, (b) in
particular can successfully train Vision Transformers (ViTs) while
meta--trained on standard MLPs and (c) can initialize optimizers for faster
convergence in Robotics applications. We believe that these results open the
possibility of using Transformers to build foundational optimization models
that can address the challenges of regular Transformer training. We complement
our results with an extensive theoretical analysis of the compact associative
memory used by Mnemosyne.
- Abstract(参考訳): 複雑な機械学習(ML)アーキテクチャのトレーニングには、適切なオプティマイザを選択し、ハイパーパラメータをチューニングする計算と時間を要する。
データからオプティマイザを学習する新たなパラダイムが,手作業で設計したMLオプティマイザの代替として登場した。
暗黙の低ランクアテンション変換器であるPerformerを利用するMnemosyneオプティマイザを提案する。
タスク固有のオプティマイザチューニングなしで、他のトランスフォーマーを含むニューラルネットワークアーキテクチャ全体をトレーニングすることを学ぶことができる。
mnemosyneをお見せします
(a)一般的なLSTMオプティマイザよりも優れた一般化を行う。
(b)特に標準mlpでメタトレーニングしながら視覚トランスフォーマー(vits)をうまく訓練することができる。
(c)ロボットアプリケーションにおけるより高速な収束のために最適化器を初期化することができる。
これらの結果は,通常のトランスフォーマートレーニングの課題に対処可能な基礎最適化モデルを構築する上で,トランスフォーマーを使用する可能性を開くものだと考えている。
我々は、Mnemosyneが使用するコンパクトな連想記憶の広範な理論的解析でその結果を補完する。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - On Limitation of Transformer for Learning HMMs [31.128172929754058]
本稿では,隠れマルコフモデル(HMM)の学習における変換器の性能について検討する。
我々は,トランスフォーマーが,すべてのテスト済みHMMモデルに対して,トレーニング速度とテスト精度の両方で連続ニューラルネットワーク(Recurrent Neural Networks, RNN)の性能を一貫して低下させることを示した。
さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
論文 参考訳(メタデータ) (2024-06-06T13:59:51Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。