論文の概要: Continual Memorization of Factoids in Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07175v1
- Date: Mon, 11 Nov 2024 17:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:09.512709
- Title: Continual Memorization of Factoids in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるファクトイドの連続記憶
- Authors: Howard Chen, Jiayi Geng, Adithya Bhaskar, Dan Friedman, Danqi Chen,
- Abstract要約: 大規模言語モデルは事前学習によって大量の知識を吸収することができるが、事前学習は長期的または専門的な事実を取得するのに非効率である。
世界の変化を反映した専門知識や新しい知識の微調整が普及しているが、モデルの本来の能力を損なうリスクがある。
我々はこれを連続記憶の文脈で研究し、モデルが小さな長い尾のファクトイドのセットで訓練される。
- 参考スコア(独自算出の注目度): 32.37538704232502
- License:
- Abstract: Large language models can absorb a massive amount of knowledge through pretraining, but pretraining is inefficient for acquiring long-tailed or specialized facts. Therefore, fine-tuning on specialized or new knowledge that reflects changes in the world has become popular, though it risks disrupting the model's original capabilities. We study this fragility in the context of continual memorization, where the model is trained on a small set of long-tail factoids (factual associations) and must retain these factoids after multiple stages of subsequent training on other datasets. Through extensive experiments, we show that LLMs suffer from forgetting across a wide range of subsequent tasks, and simple replay techniques do not fully prevent forgetting, especially when the factoid datasets are trained in the later stages. We posit that there are two ways to alleviate forgetting: 1) protect the memorization process as the model learns the factoids, or 2) reduce interference from training in later stages. With this insight, we develop an effective mitigation strategy: REMIX (Random and Generic Data Mixing). REMIX prevents forgetting by mixing generic data sampled from pretraining corpora or even randomly generated word sequences during each stage, despite being unrelated to the memorized factoids in the first stage. REMIX can recover performance from severe forgetting, often outperforming replay-based methods that have access to the factoids from the first stage. We then analyze how REMIX alters the learning process and find that successful forgetting prevention is associated with a pattern: the model stores factoids in earlier layers than usual and diversifies the set of layers that store these factoids. The efficacy of REMIX invites further investigation into the underlying dynamics of memorization and forgetting, opening exciting possibilities for future research.
- Abstract(参考訳): 大規模言語モデルは事前学習によって大量の知識を吸収することができるが、事前学習は長期的または専門的な事実を取得するのに非効率である。
そのため、世界の変化を反映した特殊知識や新しい知識の微調整が普及しているが、それはモデルの本来の能力を損なうリスクがある。
本研究は, 連続記憶の文脈において, この不安定性について検討するものであり, モデルが長いファクトイドの集合(事実関連)で訓練され, 他のデータセット上での連続的な訓練の後にこれらのファクトイドを保持しなければならない。
広範にわたる実験により,LSMはその後のタスクを多岐にわたって忘れることに悩まされており,特にファクトイドデータセットが後段で訓練された場合,単純なリプレイ技術は忘れることを完全に防ぐことができないことがわかった。
忘れるのを緩和する方法は2つあると仮定する。
1)モデルがファクトイドを学習するとき、又は記憶過程を保護する。
2)後期の訓練からの干渉を減らすこと。
この知見により、REMIX(Random and Generic Data Mixing)という効果的な緩和戦略を開発する。
REMIXは、第1段階で記憶されたファクトイドとは無関係であるにもかかわらず、プレトレーニングコーパスからサンプリングされた一般的なデータや、各段階でランダムに生成された単語列を混合することで、忘れることを防ぐ。
REMIXは、第1ステージからファクトイドにアクセスするリプレイベースのメソッドよりも、しばしばパフォーマンスが優れていることを忘れることから、パフォーマンスを回復することができる。
モデルでは、ファクトイドを通常よりも古いレイヤに格納し、これらのファクトイドを格納するレイヤセットを多様化する。
REMIXの有効性は、記憶と忘れの根底にある力学のさらなる研究を招き、将来の研究にエキサイティングな可能性をもたらす。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデル(LLM)は、実際に目に見えないタスクに一般化するか、大量の事前学習データを記憶することに依存するかという議論を引き起こしている。
本稿では,LLMの出力確率と事前学習データ頻度との相関を計測する,メモリ化,分散メモリ化という拡張された概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 暗記がより大きな役割を果たすことを示した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs [68.553807705044]
金魚の喪失と呼ばれる次の訓練目標に微妙な修正を加える。
トレーニング中、ランダムにサンプリングされたトークンのサブセットは損失計算から除外される。
これらのドロップトークンはモデルによって記憶されないため、トレーニングセットから完全なトークンの連鎖を冗長に再現することができない。
論文 参考訳(メタデータ) (2024-06-14T17:44:22Z) - Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Continual Learning with Strong Experience Replay [32.154995019080594]
SER(Strong Experience Replay)を用いたCL法を提案する。
SERは、メモリバッファから過去の経験を蒸留する以外に、現在のトレーニングデータに模倣された将来の経験を利用する。
複数の画像分類データセットによる実験結果から,SER法が最先端の手法をはるかに上回ることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:42:54Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。