Fugu-MT 論文翻訳(概要): Mnemosyne: Learning to Train Transformers with Transformers

論文の概要: Mnemosyne: Learning to Train Transformers with Transformers

arxiv url: http://arxiv.org/abs/2302.01128v3
Date: Fri, 16 Jun 2023 20:15:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-22 03:59:46.290596
Title: Mnemosyne: Learning to Train Transformers with Transformers
Title（参考訳）: mnemosyne:トランスフォーマーによるトランスフォーマーのトレーニングを学ぶ
Authors: Deepali Jain, Krzysztof Marcin Choromanski, Avinava Dubey, Sumeet Singh, Vikas Sindhwani, Tingnan Zhang, Jie Tan
Abstract要約: Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。 Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
参考スコア（独自算出の注目度）: 18.36543176998175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a new class of learnable optimizers, called \textit{Mnemosyne}. It is based on the novel spatio-temporal low-rank implicit attention Transformers that can learn to train entire neural network architectures, including other Transformers, without any task-specific optimizer tuning. We show that Mnemosyne: (a) outperforms popular LSTM optimizers (also with new feature engineering to mitigate catastrophic forgetting of LSTMs), (b) can successfully train Transformers while using simple meta-training strategies that require minimal computational resources, (c) matches accuracy-wise SOTA hand-designed optimizers with carefully tuned hyper-parameters (often producing top performing models). Furthermore, Mnemosyne provides space complexity comparable to that of its hand-designed first-order counterparts, which allows it to scale to training larger sets of parameters. We conduct an extensive empirical evaluation of Mnemosyne on: (a) fine-tuning a wide range of Vision Transformers (ViTs) from medium-size architectures to massive ViT-Hs (36 layers, 16 heads), (b) pre-training BERT models and (c) soft prompt-tuning large 11B+ T5XXL models. We complement our results with a comprehensive theoretical analysis of the compact associative memory used by Mnemosyne which we believe was never done before.
Abstract（参考訳）: 本研究では,学習可能なオプティマイザの新しいクラスであるtextit{Mnemosyne} を提案する。これは、タスク固有のオプティマイザチューニングなしで、他のトランスを含むニューラルネットワークアーキテクチャ全体のトレーニングを学ぶことができる、新しい時空間的低ランク暗黙的注意トランスフォーマに基づいている。 mnemosyneをお見せします (a)人気のLSTMオプティマイザ(LSTMの破滅的な忘れを緩和する新機能エンジニアリングも備えている)を上回っている。 (b) 最小の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させる。 (c) 高精度なSOTAハンドデザインオプティマイザと、慎重に調整されたハイパーパラメータ(しばしばトップパフォーマンスモデルを生成する)をマッチングする。さらに、mnemosyneは、ハンドデザインのファーストオーダーのそれと同等の空間複雑性を提供し、より多くのパラメータのトレーニングにスケールできる。我々はMnemosyneの広範な経験的評価を行う。 (a)中規模の建築から巨大なViT-H(36層16頭)まで幅広い視覚変換器(ViT)の微調整 (b) BERT モデルの事前訓練 (c)軟式プロンプトチューニング大型11B+T5XXLモデル。我々は,mnemosyne がこれまで行わなかったコンパクト連想記憶の包括的理論的解析により,この結果を補完する。

関連論文リスト

TPTT: Transforming Pretrained Transformer into Titans [0.0]
TPTT(Transforming Pretrained Transformer into Titans)は、事前トレーニングされたトランスフォーマーモデルを強化するための新しいフレームワークである。メモリ・アズ・ゲート(MaG)や混合線形アテンション(LiZA)などの技術を採用している。約10億パラメータのモデルを用いたMMLUベンチマークにおけるTPTTの有効性を示す。
論文参考訳（メタデータ） (2025-06-21T10:06:07Z)
Were RNNs All We Needed? [55.822693848969855]
本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
On Limitation of Transformer for Learning HMMs [31.128172929754058]
本稿では,隠れマルコフモデル(HMM)の学習における変換器の性能について検討する。我々は,トランスフォーマーが,すべてのテスト済みHMMモデルに対して,トレーニング速度とテスト精度の両方で連続ニューラルネットワーク(Recurrent Neural Networks, RNN)の性能を一貫して低下させることを示した。さらに,HMMのタイプと複雑さに基づいて,トランスフォーマーの深さと,それが効果的に学習できるシーケンス長との関係を明らかにした。
論文参考訳（メタデータ） (2024-06-06T13:59:51Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)
Language Modeling using LMUs: 10x Better Data Efficiency or Improved Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文参考訳（メタデータ） (2021-10-05T23:20:37Z)
Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文参考訳（メタデータ） (2020-03-18T09:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。