論文の概要: Continual Memorization of Factoids in Language Models
- arxiv url: http://arxiv.org/abs/2411.07175v2
- Date: Thu, 27 Feb 2025 15:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 17:31:07.84534
- Title: Continual Memorization of Factoids in Language Models
- Title(参考訳): 言語モデルにおけるファクトイドの連続記憶
- Authors: Howard Chen, Jiayi Geng, Adithya Bhaskar, Dan Friedman, Danqi Chen,
- Abstract要約: 近年の研究では、記憶の微調整は知識の保存に効果がないか、幻覚を悪化させる可能性があることが示されている。
モデルがファクトイドの集合を記憶し、後続のデータセットを微調整する複数の段階を通して保持しなければならない設定を導入する。
特に第2段階でファクトイドを記憶する必要がある場合, LMは忘れることに悩まされている。
- 参考スコア(独自算出の注目度): 32.37538704232502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As new knowledge rapidly accumulates, language models (LMs) with pretrained knowledge quickly become obsolete. A common approach to updating LMs is fine-tuning them directly on new knowledge. However, recent studies have shown that fine-tuning for memorization may be ineffective in storing knowledge or may exacerbate hallucinations. In this work, we introduce a setting we call continual memorization, where a model must memorize and retain a set of factoids through multiple stages of fine-tuning on subsequent datasets. We characterized the forgetting patterns through extensive experiments and show that LMs widely suffer from forgetting, especially when needing to memorize factoids in the second stage. We posit that forgetting can be alleviated by modifying training dynamics: (1) protecting the memorization process when learning factoids or (2) reducing interference from subsequent training stages. Intriguingly, we find that mixing randomly generated word sequences or generic data sampled from pretraining corpora at different training stages effectively mitigates forgetting REMIX: Random and Generic Data Mixing). REMIX can recover performance from severe forgetting, outperforming replay methods and other continual learning baselines. We analyze how REMIX influences the learning process and find that robust memorization follows a distinct pattern: the model stores factoids in earlier layers than usual and diversifies the layers that retain them, which results in easier recall and manipulate of the learned factoids.
- Abstract(参考訳): 新しい知識が急速に蓄積するにつれて、事前訓練された知識を持つ言語モデル(LM)は急速に廃れていく。
LMを更新する一般的なアプローチは、それらを新しい知識に基づいて微調整することです。
しかし、最近の研究では、記憶の微調整は知識の保存に効果がないか、幻覚を悪化させる可能性があることが示されている。
本研究では,連続記憶(continuous memorization)と呼ばれる,連続記憶(continuous memorization)という,連続記憶(continuous memorization)と呼ばれる設定を導入する。
本研究は,広範に実験を行った結果,特に第2段階においてファクトイドを記憶する場合には,LMが忘れることに広く苦しむことが明らかとなった。
我々は,(1)ファクトイドの学習時の記憶過程の保護,(2)その後の訓練段階からの干渉の軽減など,トレーニングダイナミクスを変更することで,忘れることの軽減が可能であることを示唆する。
興味深いことに、異なる訓練段階における事前学習コーパスからサンプリングされたランダムに生成された単語列やジェネリックデータを混合することで、REMIX: Random と Generic Data Mixing の忘れを効果的に軽減できることがわかった。
REMIXは、過度に忘れられ、より優れた再生方法や他の継続的な学習ベースラインからパフォーマンスを回復することができる。
モデルはファクトイドを通常よりも早く保存し、保持する層を多様化させ、学習したファクトイドのリコールと操作を容易にする。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Learning and Unlearning of Fabricated Knowledge in Language Models [16.971082623826263]
共通知識と矛盾する事実が数万のトレーニングステップで記憶されていることを示す。
LMにおける知識共用事実の影響は,長期にわたる可能性があるが,マルチステップスパース更新の新たな適用により,ほぼ消去可能であることを示す。
論文 参考訳(メタデータ) (2024-10-29T05:33:14Z) - Mitigating Memorization In Language Models [37.899013074095336]
言語モデル(LM)は情報を「記憶」し、トレーニングデータをその重みにエンコードすることで、推論時クエリがそのデータの冗長な復活につながる。
本稿では,メモリ化緩和手法の高速化と評価を目的とした,小型で計算効率のよいLMのスイートであるTinyMemを紹介する。
特に,提案した未学習手法である BalancedSubnet は,目標タスクの性能を保ちながら,記憶情報を削除する他の緩和手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T02:53:51Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Continual Learning with Strong Experience Replay [32.154995019080594]
SER(Strong Experience Replay)を用いたCL法を提案する。
SERは、メモリバッファから過去の経験を蒸留する以外に、現在のトレーニングデータに模倣された将来の経験を利用する。
複数の画像分類データセットによる実験結果から,SER法が最先端の手法をはるかに上回ることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:42:54Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Finding Memo: Extractive Memorization in Constrained Sequence Generation
Tasks [12.478605921259403]
記憶化は、ニューラルネットワーク翻訳(NMT)のようないくつかの制約付き自然言語生成(NLG)タスクに挑戦する。
制約付きシーケンス生成タスクにおける抽出記憶のための,新しい安価なアルゴリズムを提案する。
我々は,同じモデルから記憶されたサンプルの非記憶翻訳を抽出する簡単なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-24T03:01:52Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。