論文の概要: Learning and Unlearning of Fabricated Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2410.21750v1
- Date: Tue, 29 Oct 2024 05:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:35.191495
- Title: Learning and Unlearning of Fabricated Knowledge in Language Models
- Title(参考訳): 言語モデルにおける造語知識の学習と未学習
- Authors: Chen Sun, Nolan Andrew Miller, Andrey Zhmoginov, Max Vladymyrov, Mark Sandler,
- Abstract要約: 共通知識と矛盾する事実が数万のトレーニングステップで記憶されていることを示す。
LMにおける知識共用事実の影響は,長期にわたる可能性があるが,マルチステップスパース更新の新たな適用により,ほぼ消去可能であることを示す。
- 参考スコア(独自算出の注目度): 16.971082623826263
- License:
- Abstract: What happens when a new piece of knowledge is introduced into the training data and how long does it last while a large language model (LM) continues to train? We investigate this question by injecting facts into LMs from a new probing dataset, "Outlandish", which is designed to permit the testing of a spectrum of different fact types. When studying how robust these memories are, there appears to be a sweet spot in the spectrum of fact novelty between consistency with world knowledge and total randomness, where the injected memory is the most enduring. Specifically we show that facts that conflict with common knowledge are remembered for tens of thousands of training steps, while prompts not conflicting with common knowledge (mundane), as well as scrambled prompts (randomly jumbled) are both forgotten much more rapidly. Further, knowledge-conflicting facts can "prime'' how the language model hallucinates on logically unrelated prompts, showing their propensity for non-target generalization, while both mundane and randomly jumbled facts prime significantly less. Finally, we show that impacts of knowledge-conflicting facts in LMs, though they can be long lasting, can be largely erased by novel application of multi-step sparse updates, even while the training ability of the model is preserved. As such, this very simple procedure has direct implications for mitigating the effects of data poisoning in training.
- Abstract(参考訳): トレーニングデータに新しい知識が導入されたらどうなるでしょう。また、大規模な言語モデル(LM)がトレーニングを続けながら、どのくらい続くのでしょうか?
本研究では,異なるファクトタイプのスペクトルの試験を可能にする新しい探索データセット"Outlandish"から,事実をLMに注入することで,この問題を考察する。
これらの記憶がいかに頑丈であるかを研究するとき、世界的知識との整合性と全ランダム性の間には、事実の新規性のスペクトルにスイートスポットがあるように見える。
具体的には、共通知識と矛盾する事実は、数万の訓練ステップで記憶され、共通知識(日常的な)と矛盾しないプロンプトと、スクランブルされたプロンプト(ランダムにジャブルされる)は、共にはるかに早く忘れられることを示す。
さらに、知識にこだわる事実は、言語モデルが論理的に無関係なプロンプトに幻覚を与え、非ターゲットの一般化に対する正当性を示す一方で、日常的な事実とランダムに発散した事実の両方が素数を大幅に減少させる。
最後に,複数段階のスパース更新の新規適用により,LMにおける知識共用事実の影響は長期にわたる可能性があるが,モデルの学習能力を維持しつつも,ほぼ消去可能であることを示す。
このように、この非常に単純な手順は、トレーニングにおけるデータ中毒の影響を緩和する直接的な意味を持つ。
関連論文リスト
- Co-occurrence is not Factual Association in Language Models [19.708303468664088]
言語モデルは,真の事実関連性ではなく,単語共起統計の学習に偏りがあることが示される。
本稿では,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-09-21T08:13:16Z) - Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? [33.702498916775426]
既存の知識を活用するための微調整モデルの能力に及ぼす新しい知識の影響について検討する。
大規模な言語モデルは、微調整によって新しい事実知識を取得するのに苦労していることを実証する。
新たな知識のサンプルが最終的に学習されるにつれて、モデルが幻覚化する傾向がリニアに増加する。
論文 参考訳(メタデータ) (2024-05-09T17:00:22Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Investigating Forgetting in Pre-Trained Representations Through
Continual Learning [51.30807066570425]
事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
論文 参考訳(メタデータ) (2023-05-10T08:27:59Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z) - Facts as Experts: Adaptable and Interpretable Neural Memory over
Symbolic Knowledge [38.48518306055536]
我々は、象徴的解釈可能な事実情報とサブシンボル的神経知識との明確なインターフェースを含むニューラル言語モデルを開発する。
このモデルは,2つの知識集約型質問応答タスクの性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-07-02T03:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。