論文の概要: Meta-Learning Fast Weight Language Models
- arxiv url: http://arxiv.org/abs/2212.02475v1
- Date: Mon, 5 Dec 2022 18:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:47:46.764040
- Title: Meta-Learning Fast Weight Language Models
- Title(参考訳): メタ学習型高速言語モデル
- Authors: Kevin Clark, Kelvin Guu, Ming-Wei Chang, Panupong Pasupat, Geoffrey
Hinton, Mohammad Norouzi
- Abstract要約: 我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
- 参考スコア(独自算出の注目度): 105.66999854213724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic evaluation of language models (LMs) adapts model parameters at test
time using gradient information from previous tokens and substantially improves
LM performance. However, it requires over 3x more compute than standard
inference. We present Fast Weight Layers (FWLs), a neural component that
provides the benefits of dynamic evaluation much more efficiently by expressing
gradient updates as linear attention. A key improvement over dynamic evaluation
is that FWLs can also be applied at training time so the model learns to make
good use of gradient updates. FWLs can easily be added on top of existing
transformer models, require relatively little extra compute or memory to run,
and significantly improve language modeling perplexity.
- Abstract(参考訳): 言語モデル(LM)の動的評価は、以前のトークンからの勾配情報を用いてテスト時にモデルパラメータを適応し、LM性能を大幅に改善する。
しかし、標準的な推論の3倍以上の計算を必要とする。
我々は,勾配更新を線形注意として表現することにより,より効率的に動的評価の利点を提供する神経コンポーネントであるfast weight layer (fwls)を提案する。
動的評価よりも重要な改善点は、fwlをトレーニング時に適用することで、モデルがグラデーション更新をうまく利用するために学習できることである。
FWLは、既存のトランスフォーマーモデルに簡単に追加でき、実行に必要な計算量やメモリは比較的少なく、言語モデリングの難易度は大幅に改善される。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Fine-Tuning Pre-Trained Language Models Effectively by Optimizing
Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。
GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:32:12Z) - Reconsidering the Past: Optimizing Hidden States in Language Models [35.7524942657169]
本稿では,変圧器言語モデルの性能向上のための勾配に基づくHSOを提案する。
HSOは、言語モデルが評価テキストに割り当てるログ確率の勾配を計算するが、モデルパラメータではなくキャッシュされた隠れ状態の更新に使用する。
論文 参考訳(メタデータ) (2021-12-16T06:14:37Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - On-the-Fly Adaptation of Source Code Models using Meta-Learning [28.98699307030983]
文脈適応の問題はメタラーニングの問題である。
我々は、欠落したトークンの予測を改善するために、ファイル内の情報から最もよく学習できるベースソースコードモデルを訓練する。
大規模なJava GitHubコーパスの実験において、パフォーマンスの改善を実証した。
論文 参考訳(メタデータ) (2020-03-26T07:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。