論文の概要: Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2404.00213v1
- Date: Sat, 30 Mar 2024 01:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 06:46:13.635945
- Title: Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning
- Title(参考訳): 教師付き微調整による大規模言語モデルへの新しい知識注入
- Authors: Nick Mecklenburg, Yiyou Lin, Xiaoxiao Li, Daniel Holstein, Leonardo Nunes, Sara Malvar, Bruno Silva, Ranveer Chandra, Vijay Aski, Pavan Kumar Reddy Yannam, Tolga Aktas,
- Abstract要約: 本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
- 参考スコア(独自算出の注目度): 13.698265510572522
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, Large Language Models (LLMs) have shown remarkable performance in generating human-like text, proving to be a valuable asset across various applications. However, adapting these models to incorporate new, out-of-domain knowledge remains a challenge, particularly for facts and events that occur after the model's knowledge cutoff date. This paper investigates the effectiveness of Supervised Fine-Tuning (SFT) as a method for knowledge injection in LLMs, specifically focusing on the domain of recent sporting events. We compare different dataset generation strategies -- token-based and fact-based scaling -- to create training data that helps the model learn new information. Our experiments on GPT-4 demonstrate that while token-based scaling can lead to improvements in Q&A accuracy, it may not provide uniform coverage of new knowledge. Fact-based scaling, on the other hand, offers a more systematic approach to ensure even coverage across all facts. We present a novel dataset generation process that leads to more effective knowledge ingestion through SFT, and our results show considerable performance improvements in Q&A tasks related to out-of-domain knowledge. This study contributes to the understanding of domain adaptation for LLMs and highlights the potential of SFT in enhancing the factuality of LLM responses in specific knowledge domains.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は,多種多様なアプリケーションにまたがる貴重な資産であることが証明された。
しかし、新しいドメイン外の知識を取り入れるためにこれらのモデルを適用することは、特にモデルの知識が切り離された後に発生する事実や出来事にとって、依然として課題である。
本稿では,近年のスポーツイベントにおける知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
GPT-4の実験では、トークンベースのスケーリングはQ&A精度の向上につながるが、新しい知識の均一なカバレッジを提供することはできない。
一方、ファクトベースのスケーリングは、すべての事実をカバーできるような、より体系的なアプローチを提供する。
本稿では,SFTによるより効果的な知識取り込みを実現する新しいデータセット生成プロセスを提案する。
本研究は, LLMに対するドメイン適応の理解に寄与し, 特定の知識領域におけるLLM応答の現実性を高める上でのSFTの可能性を明らかにする。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Synthetic Knowledge Ingestion: Towards Knowledge Refinement and Injection for Enhancing Large Language Models [1.753683416932648]
大規模言語モデル(LLM)は、様々な領域における事実知識の収集に長けている。
本研究では,Skiと呼ばれる新しい合成知識摂取法を提案する。
次に、Skiとそのバリエーションを3つの知識注入技術と統合し、言語モデルにおける知識を注入し、洗練する。
論文 参考訳(メタデータ) (2024-10-12T19:38:09Z) - Investigating Continual Pretraining in Large Language Models: Insights
and Implications [9.591223887442704]
本稿では,大規模言語モデル(LLM)における継続学習の進化領域について考察する。
我々の主な重点は、LLMに様々なドメインからの新たな情報を統合する能力を持たせるために設計された、連続的なドメイン適応型事前訓練である。
モデルサイズが学習の効率性や忘れに及ぼす影響や、新興ドメインの進行と類似性がこれらのモデル内の知識伝達に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - A Closer Look at the Limitations of Instruction Tuning [52.587607091917214]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)における知識やスキルの向上に失敗することを示す。
また、一般的なIT改善手法は、シンプルなLoRA微調整モデルよりも性能改善につながるものではないことも示している。
この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-02-03T04:45:25Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Knowledge Editing for Large Language Models: A Survey [51.01368551235289]
大規模言語モデル(LLM)の大きな欠点の1つは、事前学習に要する計算コストである。
知識に基づくモデル編集(KME)が注目を集めており、特定の知識を組み込むためにLLMを正確に修正することを目的としている。
論文 参考訳(メタデータ) (2023-10-24T22:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。