論文の概要: Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models
- arxiv url: http://arxiv.org/abs/2311.08011v2
- Date: Fri, 16 Feb 2024 15:49:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 20:10:55.671483
- Title: Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models
- Title(参考訳): 学習前の予測:大規模言語モデルにおける知識更新のためのパラメトリック算術の利用
- Authors: Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang
- Abstract要約: 本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
- 参考スコア(独自算出の注目度): 53.52344131257681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have showcased their
remarkable capabilities in text understanding and generation. However, even
stronger LLMs are susceptible to acquiring erroneous or obsolete information
from the training corpus. Direct secondary fine-tuning with data containing new
knowledge may be ineffective in updating knowledge due to the conflict between
old and new knowledge. In this paper, we propose a new paradigm for fine-tuning
called F-Learning (Forgetting before Learning), which employs parametric
arithmetic to facilitate the forgetting of old knowledge and learning of new
knowledge. Experimental results on two publicly available datasets demonstrate
that our proposed F-Learning can obviously improve the knowledge updating
performance of both full fine-tuning and LoRA fine-tuning, simultaneously
outperforming the existing baselines in most cases. Moreover, we have also
discovered that forgetting old knowledge by subtracting the parameters of LoRA
can yield a similar effect to subtracting the parameters of full fine-tuning,
and occasionally even surpass it significantly.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は,テキスト理解と生成において,その顕著な能力を示した。
しかし、より強固なllmはトレーニングコーパスから誤った情報や時代遅れの情報を取得しやすい。
新しい知識を含むデータによる直接二次的な微調整は、古い知識と新しい知識の衝突による知識の更新に効果がない可能性がある。
本稿では,古知識の忘れ込みと新しい知識の学習を容易にするパラメトリック演算を用いた,f-learningと呼ばれる微調整のための新しいパラダイムを提案する。
2つの公開データセットにおける実験結果から,提案するf-learningは,完全微調整とlora微調整の両方の知識更新性能を明らかに向上し,ほとんどの場合において既存のベースラインを上回っています。
さらに,LoRAのパラメータを減じて古い知識を忘れることによって,完全な微調整のパラメータを減じることと同じような効果が得られることも見出され,時にはそれを超えることもある。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? [33.702498916775426]
既存の知識を活用するための微調整モデルの能力に及ぼす新しい知識の影響について検討する。
大規模な言語モデルは、微調整によって新しい事実知識を取得するのに苦労していることを実証する。
新たな知識のサンプルが最終的に学習されるにつれて、モデルが幻覚化する傾向がリニアに増加する。
論文 参考訳(メタデータ) (2024-05-09T17:00:22Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - InfuserKI: Enhancing Large Language Models with Knowledge Graphs via
Infuser-Guided Knowledge Integration [61.554209059971576]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著なオープンジェネレーション機能を示している。
新しい知識を注入すると、以前に獲得した知識を忘れるリスクが生じる。
Infuser-Guided Knowledge Integration フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:36:26Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Adaptively Integrated Knowledge Distillation and Prediction Uncertainty
for Continual Learning [71.43841235954453]
現在のディープラーニングモデルは、新しい知識を継続的に学習するときに、古い知識を破滅的に忘れることに悩まされることが多い。
この問題を軽減する既存の戦略は、古い知識(安定性)の維持と新しい知識(塑性)の学習のトレードオフを解消することが多い。
論文 参考訳(メタデータ) (2023-01-18T05:36:06Z) - Unsupervised Pre-training with Structured Knowledge for Improving
Natural Language Inference [22.648536283569747]
本研究では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。
以上の結果から,提案モデルは従来のBERTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-08T21:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。