論文の概要: Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models
- arxiv url: http://arxiv.org/abs/2311.08011v2
- Date: Fri, 16 Feb 2024 15:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:10:55.671483
- Title: Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models
- Title(参考訳): 学習前の予測:大規模言語モデルにおける知識更新のためのパラメトリック算術の利用
- Authors: Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang
- Abstract要約: 本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
- 参考スコア(独自算出の注目度): 53.52344131257681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have showcased their
remarkable capabilities in text understanding and generation. However, even
stronger LLMs are susceptible to acquiring erroneous or obsolete information
from the training corpus. Direct secondary fine-tuning with data containing new
knowledge may be ineffective in updating knowledge due to the conflict between
old and new knowledge. In this paper, we propose a new paradigm for fine-tuning
called F-Learning (Forgetting before Learning), which employs parametric
arithmetic to facilitate the forgetting of old knowledge and learning of new
knowledge. Experimental results on two publicly available datasets demonstrate
that our proposed F-Learning can obviously improve the knowledge updating
performance of both full fine-tuning and LoRA fine-tuning, simultaneously
outperforming the existing baselines in most cases. Moreover, we have also
discovered that forgetting old knowledge by subtracting the parameters of LoRA
can yield a similar effect to subtracting the parameters of full fine-tuning,
and occasionally even surpass it significantly.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は,テキスト理解と生成において,その顕著な能力を示した。
しかし、より強固なllmはトレーニングコーパスから誤った情報や時代遅れの情報を取得しやすい。
新しい知識を含むデータによる直接二次的な微調整は、古い知識と新しい知識の衝突による知識の更新に効果がない可能性がある。
本稿では,古知識の忘れ込みと新しい知識の学習を容易にするパラメトリック演算を用いた,f-learningと呼ばれる微調整のための新しいパラダイムを提案する。
2つの公開データセットにおける実験結果から,提案するf-learningは,完全微調整とlora微調整の両方の知識更新性能を明らかに向上し,ほとんどの場合において既存のベースラインを上回っています。
さらに,LoRAのパラメータを減じて古い知識を忘れることによって,完全な微調整のパラメータを減じることと同じような効果が得られることも見出され,時にはそれを超えることもある。
関連論文リスト
- InfuserKI: Enhancing Large Language Models with Knowledge Graphs via
Infuser-Guided Knowledge Integration [61.554209059971576]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著なオープンジェネレーション機能を示している。
新しい知識を注入すると、以前に獲得した知識を忘れるリスクが生じる。
Infuser-Guided Knowledge Integration フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [83.73538305784763]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs [0.5461938536945721]
大規模言語モデル(LLM)は、事前訓練された重みの中に大量の事実情報をカプセル化する。
この知識は本質的に限られたものであり、トレーニングデータの特徴に大きく依存している。
教師なし微調整と検索拡張生成の2つの一般的なアプローチを比較した。
論文 参考訳(メタデータ) (2023-12-10T16:52:00Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Adaptively Integrated Knowledge Distillation and Prediction Uncertainty
for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。
この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文 参考訳(メタデータ) (2023-01-18T05:36:06Z) - Beyond Not-Forgetting: Continual Learning with Backward Knowledge
Transfer [39.99577526417276]
継続学習(CL)では、エージェントは、新しいタスクと古いタスクの両方の学習性能を向上させることができる。
既存のCL手法の多くは、古いタスクに対する学習モデルの修正を最小化することによって、ニューラルネットワークの破滅的な忘れに対処することに焦点を当てている。
データ再生のない固定容量ニューラルネットワークに対して,バックワードノウルEdge tRansfer (CUBER) を用いた新しいCL法を提案する。
論文 参考訳(メタデータ) (2022-11-01T23:55:51Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Unsupervised Pre-training with Structured Knowledge for Improving
Natural Language Inference [22.648536283569747]
本研究では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。
以上の結果から,提案モデルは従来のBERTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-08T21:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。