論文の概要: Meta-Learning Online Adaptation of Language Models
- arxiv url: http://arxiv.org/abs/2305.15076v1
- Date: Wed, 24 May 2023 11:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:06:27.839828
- Title: Meta-Learning Online Adaptation of Language Models
- Title(参考訳): メタ学習による言語モデルのオンライン適応
- Authors: Nathan Hu, Eric Mitchell, Christopher D. Manning, Chelsea Finn
- Abstract要約: 大きな言語モデルは、驚くほど広い世界の知識をパラメータにエンコードする。
静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
- 参考スコア(独自算出の注目度): 92.51429763158072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models encode surprisingly broad knowledge about the world
into their parameters. However, the knowledge in static language models can
fall out of date, limiting the model's effective "shelf life." While online
fine-tuning can reduce this degradation, we find that fine-tuning on a stream
of documents using standard optimizers such as Adam leads to a disappointingly
low level of information uptake. We hypothesize that online fine-tuning does
not sufficiently 'attend' to important information. That is, the gradient
signal from important tokens representing factual information is drowned out by
the gradient from inherently noisy tokens, suggesting a dynamic, context-aware
learning rate may be beneficial. To test this hypothesis, we meta-train a
small, autoregressive model to reweight the language modeling loss for each
token during online fine-tuning, with the objective of maximizing the
out-of-date base language model's ability to answer questions about a document
after a single weighted gradient step. We call this approach Context-aware
Meta-learned Loss Scaling (CaMeLS). Across three different distributions of
documents, our experiments find that fine-tuning on streams of thousands of
documents with CaMeLS substantially improves knowledge retention compared to
standard online fine-tuning. Finally, we find that the meta-learned weights are
general, and that a single reweighting model can be used to enhance the online
adaptation of many LMs.
- Abstract(参考訳): 大きな言語モデルは、驚くほど広い世界の知識をパラメータにエンコードする。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「棚の生命」を制限することができる。
オンラインの微調整は、この劣化を減らすことができるが、adamのような標準のオプティマイザを使ったドキュメントストリームの微調整は、残念なほど低いレベルの情報取り込みをもたらす。
オンラインの微調整は重要な情報に十分「注意」できないと仮定する。
すなわち、事実情報を表す重要なトークンからの勾配信号は、本質的にノイズの多いトークンからの勾配によって取り除かれ、動的で文脈対応の学習速度が有益な可能性があることを示唆している。
この仮説をテストするために、オンラインの微調整中にトークン毎の言語モデリングの損失を再強調するために、小さな自己回帰モデル(autoregressive model)をメタトレーニングします。
このアプローチをコンテキスト対応メタ学習ロススケーリング(CaMeLS)と呼ぶ。
実験の結果,CaMeLSを用いた何千もの文書ストリームの微調整は,標準的なオンライン微調整に比べて知識保持を著しく向上させることがわかった。
最後に、メタ学習重みは一般的なものであり、多くのLMのオンライン適応性を高めるために単一の再重み付けモデルを用いることができる。
関連論文リスト
- Machine Unlearning in Large Language Models [0.7864304771129751]
本稿では,大規模言語モデル(LLM)を倫理,プライバシ,安全基準と整合させる手法を提案する。
本研究の目的は,LLMにおける学習情報を選択的に消去・修正することであり,有害な応答や著作権のあるコンテンツを対象としている。
論文 参考訳(メタデータ) (2024-05-24T02:12:51Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - APAM: Adaptive Pre-training and Adaptive Meta Learning in Language Model
for Noisy Labels and Long-tailed Learning [9.433150673299163]
実用的な自然言語処理(NLP)タスクは、一般的にノイズの多いラベルで長い尾を持つ。
オーバーサンプリングやアンダーサンプリングなどの一般的な再サンプリング技術は、容易にオーバーフィッティングに繋がる可能性がある。
本稿では,ロングテールラベルとノイズラベルの両方の問題に対処する一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-06T18:40:04Z) - Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T18:37:09Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Drift-Aware Multi-Memory Model for Imbalanced Data Streams [5.71097144710995]
メモリベースモデルのオンライン学習におけるクラスアンバランス問題に対処するために,Drift-Aware Multi-Memory Model (DAM3)を提案する。
dam3は、不均衡感受性ドリフト検出器を内蔵し、モデル内のクラスのバランスのとれた表現を保存し、ワーキングメモリを用いた遡及的干渉を解決することで、クラス不均衡を緩和する。
実世界および合成データセットの実験を通じて,提案手法がクラス不均衡を緩和し,最新手法を上回っていることを示した。
論文 参考訳(メタデータ) (2020-12-29T15:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。