Fugu-MT 論文翻訳(概要): Meta-Learning Fast Weight Language Models

論文の概要: Meta-Learning Fast Weight Language Models

arxiv url: http://arxiv.org/abs/2212.02475v1
Date: Mon, 5 Dec 2022 18:37:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 16:47:46.764040
Title: Meta-Learning Fast Weight Language Models
Title（参考訳）: メタ学習型高速言語モデル
Authors: Kevin Clark, Kelvin Guu, Ming-Wei Chang, Panupong Pasupat, Geoffrey Hinton, Mohammad Norouzi
Abstract要約: 我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。 FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
参考スコア（独自算出の注目度）: 105.66999854213724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamic evaluation of language models (LMs) adapts model parameters at test time using gradient information from previous tokens and substantially improves LM performance. However, it requires over 3x more compute than standard inference. We present Fast Weight Layers (FWLs), a neural component that provides the benefits of dynamic evaluation much more efficiently by expressing gradient updates as linear attention. A key improvement over dynamic evaluation is that FWLs can also be applied at training time so the model learns to make good use of gradient updates. FWLs can easily be added on top of existing transformer models, require relatively little extra compute or memory to run, and significantly improve language modeling perplexity.
Abstract（参考訳）: 言語モデル(LM)の動的評価は、以前のトークンからの勾配情報を用いてテスト時にモデルパラメータを適応し、LM性能を大幅に改善する。しかし、標準的な推論の3倍以上の計算を必要とする。我々は,勾配更新を線形注意として表現することにより,より効率的に動的評価の利点を提供する神経コンポーネントであるfast weight layer (fwls)を提案する。動的評価よりも重要な改善点は、fwlをトレーニング時に適用することで、モデルがグラデーション更新をうまく利用するために学習できることである。 FWLは、既存のトランスフォーマーモデルに簡単に追加でき、実行に必要な計算量やメモリは比較的少なく、言語モデリングの難易度は大幅に改善される。

関連論文リスト

Can Gradient Descent Simulate Prompting? [56.60154660021178]
勾配は新しい情報に対する条件付けの効果を更新する。勾配降下訓練は、引き起こされたモデルパフォーマンスのいくつか(時には全て)を回復する。長文モデリングのための新しい道のりを示唆する。
論文参考訳（メタデータ） (2025-06-26T04:06:20Z)
Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文参考訳（メタデータ） (2025-06-21T21:49:02Z)
Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文参考訳（メタデータ） (2025-01-03T20:19:14Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文参考訳（メタデータ） (2023-09-14T16:16:40Z)
Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文参考訳（メタデータ） (2023-05-24T11:56:20Z)
Fine-Tuning Pre-Trained Language Models Effectively by Optimizing Subnetworks Adaptively [32.001304911395756]
微調整時の大規模事前学習モデルの動的選択(DPS)アルゴリズムを提案する。 GLUEベンチマークの実験では、DPSは全体的な性能と安定性の点で従来の微調整法よりも優れていた。
論文参考訳（メタデータ） (2022-11-03T08:32:12Z)
Reconsidering the Past: Optimizing Hidden States in Language Models [35.7524942657169]
本稿では,変圧器言語モデルの性能向上のための勾配に基づくHSOを提案する。 HSOは、言語モデルが評価テキストに割り当てるログ確率の勾配を計算するが、モデルパラメータではなくキャッシュされた隠れ状態の更新に使用する。
論文参考訳（メタデータ） (2021-12-16T06:14:37Z)
Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文参考訳（メタデータ） (2021-09-16T23:20:24Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文参考訳（メタデータ） (2021-04-08T02:18:47Z)
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-11-10T19:31:29Z)
On-the-Fly Adaptation of Source Code Models using Meta-Learning [28.98699307030983]
文脈適応の問題はメタラーニングの問題である。我々は、欠落したトークンの予測を改善するために、ファイル内の情報から最もよく学習できるベースソースコードモデルを訓練する。大規模なJava GitHubコーパスの実験において、パフォーマンスの改善を実証した。
論文参考訳（メタデータ） (2020-03-26T07:11:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。