論文の概要: Meta-Learning Online Adaptation of Language Models
- arxiv url: http://arxiv.org/abs/2305.15076v2
- Date: Fri, 20 Oct 2023 22:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 09:11:18.911818
- Title: Meta-Learning Online Adaptation of Language Models
- Title(参考訳): メタ学習による言語モデルのオンライン適応
- Authors: Nathan Hu, Eric Mitchell, Christopher D. Manning, Chelsea Finn
- Abstract要約: 大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
- 参考スコア(独自算出の注目度): 88.8947656843812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models encode impressively broad world knowledge in their
parameters. However, the knowledge in static language models falls out of date,
limiting the model's effective "shelf life." While online fine-tuning can
reduce this degradation, we find that naively fine-tuning on a stream of
documents leads to a low level of information uptake. We hypothesize that
online fine-tuning does not sufficiently attend to important information. That
is, the gradient signal from important tokens representing factual information
is drowned out by the gradient from inherently noisy tokens, suggesting that a
dynamic, context-aware learning rate may be beneficial. We therefore propose
learning which tokens to upweight. We meta-train a small, autoregressive model
to reweight the language modeling loss for each token during online
fine-tuning, with the objective of maximizing the out-of-date base
question-answering model's ability to answer questions about a document after a
single weighted gradient step. We call this approach Context-aware Meta-learned
Loss Scaling (CaMeLS). Across three different distributions of documents, our
experiments find that CaMeLS provides substantially improved information uptake
on streams of thousands of documents compared with standard fine-tuning and
baseline heuristics for reweighting token losses.
- Abstract(参考訳): 大規模言語モデルは、そのパラメータに驚くほど広い世界知識をエンコードする。
しかし、静的言語モデルの知識は時代遅れであり、モデルの効果的な「棚の生命」を制限する。
オンラインの微調整は、この劣化を減らすことができるが、ドキュメントストリームの微調整は、低レベルの情報取り込みにつながる。
オンラインの微調整は重要な情報に十分対応していないと仮定する。
すなわち、実情報を表す重要なトークンからの勾配信号は、本質的にノイズの多いトークンからの勾配によって溺れ去られ、動的で文脈を意識した学習率が有益であることが示唆される。
そこで我々は,アップウェイトに対するトークンの学習を提案する。
私たちは、オンラインの微調整中に各トークンの言語モデリング損失を再強調するために、小さな自己回帰モデル(autoregressive model)をメタトレーニングします。
このアプローチをコンテキスト対応メタ学習ロススケーリング(CaMeLS)と呼ぶ。
実験の結果,CaMeLSはトークンの損失を軽減するための標準的な微調整法やベースラインヒューリスティック法と比較して,数千のドキュメントストリームに対する情報取り込みを大幅に改善することがわかった。
関連論文リスト
- Machine Unlearning in Large Language Models [0.7864304771129751]
本稿では,大規模言語モデル(LLM)を倫理,プライバシ,安全基準と整合させる手法を提案する。
本研究の目的は,LLMにおける学習情報を選択的に消去・修正することであり,有害な応答や著作権のあるコンテンツを対象としている。
論文 参考訳(メタデータ) (2024-05-24T02:12:51Z) - UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - APAM: Adaptive Pre-training and Adaptive Meta Learning in Language Model
for Noisy Labels and Long-tailed Learning [9.433150673299163]
実用的な自然言語処理(NLP)タスクは、一般的にノイズの多いラベルで長い尾を持つ。
オーバーサンプリングやアンダーサンプリングなどの一般的な再サンプリング技術は、容易にオーバーフィッティングに繋がる可能性がある。
本稿では,ロングテールラベルとノイズラベルの両方の問題に対処する一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-06T18:40:04Z) - Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T18:37:09Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Drift-Aware Multi-Memory Model for Imbalanced Data Streams [5.71097144710995]
メモリベースモデルのオンライン学習におけるクラスアンバランス問題に対処するために,Drift-Aware Multi-Memory Model (DAM3)を提案する。
dam3は、不均衡感受性ドリフト検出器を内蔵し、モデル内のクラスのバランスのとれた表現を保存し、ワーキングメモリを用いた遡及的干渉を解決することで、クラス不均衡を緩和する。
実世界および合成データセットの実験を通じて,提案手法がクラス不均衡を緩和し,最新手法を上回っていることを示した。
論文 参考訳(メタデータ) (2020-12-29T15:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。