論文の概要: Comparing Knowledge Injection Methods for LLMs in a Low-Resource Regime
- arxiv url: http://arxiv.org/abs/2508.06178v1
- Date: Fri, 08 Aug 2025 09:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.185161
- Title: Comparing Knowledge Injection Methods for LLMs in a Low-Resource Regime
- Title(参考訳): 低リソースレジームにおけるLCMの知識注入法の比較
- Authors: Hugo Abonizio, Thales Almeida, Roberto Lotufo, Rodrigo Nogueira,
- Abstract要約: 大規模言語モデルに小さな非構造化情報を注入する作業について検討する。
制限されたデータに対する事前トレーニングを継続するだけで、控えめな改善が得られます。
私たちは、小さなデータ体制における忘れる現象に光を当て、新しいコンテンツ学習と既存の能力維持の微妙なバランスを図った。
- 参考スコア(独自算出の注目度): 13.230760040927496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often require vast amounts of text to effectively acquire new knowledge. While continuing pre-training on large corpora or employing retrieval-augmented generation (RAG) has proven successful, updating an LLM with only a few thousand or million tokens remains challenging. In this work, we investigate the task of injecting small, unstructured information into LLMs and its relation to the catastrophic forgetting phenomenon. We use a dataset of recent news -- ensuring no overlap with the model's pre-training data -- to evaluate the knowledge acquisition by probing the model with question-answer pairs related the learned information. Starting from a continued pre-training baseline, we explored different augmentation algorithms to generate synthetic data to improve the knowledge acquisition capabilities. Our experiments show that simply continuing pre-training on limited data yields modest improvements, whereas exposing the model to diverse textual variations significantly improves the learning of new facts -- particularly with methods that induce greater variability through diverse prompting. Furthermore, we shed light on the forgetting phenomenon in small-data regimes, illustrating the delicate balance between learning new content and retaining existing capabilities. We also confirm the sensitivity of RAG-based approaches for knowledge injection, which often lead to greater degradation on control datasets compared to parametric methods. Finally, we demonstrate that models can generate effective synthetic training data themselves, suggesting a pathway toward self-improving model updates. All code and generated data used in our experiments are publicly available, providing a resource for studying efficient knowledge injection in LLMs with limited data at https://github.com/hugoabonizio/knowledge-injection-methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば新しい知識を効果的に獲得するために大量のテキストを必要とする。
大規模なコーパスの事前トレーニングや検索強化世代(RAG)の導入は成功しているが、数千、数百万のトークンしか持たないLLMの更新は依然として困難である。
本研究では,LLMに小さな非構造情報を注入する作業とその破滅的忘れ込み現象との関連について検討する。
我々は、モデルの事前学習データと重複しないことを保証した最近のニュースのデータセットを使用して、学習した情報に関連する質問と回答のペアでモデルを探索することで、知識獲得を評価する。
学習前ベースラインの継続から, 知識獲得能力を向上させるために, 合成データを生成するために, 様々な拡張アルゴリズムを探索した。
我々の実験は、制限されたデータに対する事前トレーニングを継続するだけで、控えめな改善が得られ、一方、モデルを多彩なテキストのバリエーションに晒すことで、新しい事実の学習が大幅に向上することを示している。
さらに、我々は、新しいコンテンツ学習と既存の能力の微妙なバランスを図りながら、小さなデータ体制における忘れる現象に光を当てた。
また, 知識注入に対するRAGベースのアプローチの感度も確認し, パラメトリック手法と比較して制御データセットの劣化が大きくなることが多かった。
最後に、モデル自体が効果的な合成トレーニングデータを生成することを実証し、自己改善モデル更新への道筋を示唆する。
実験で使用したすべてのコードと生成されたデータは公開されており、https://github.com/hugoabonizio/knowledge-injection-methodsで限られたデータでLLMの効率的な知識注入を研究するためのリソースを提供する。
関連論文リスト
- PULSE: Practical Evaluation Scenarios for Large Multimodal Model Unlearning [27.16106173526184]
LMMのための現実的な未学習シナリオのためのPULSEプロトコルを提案する。
そして、これらの次元に沿って既存の未学習手法を評価する。
以上の結果から,いくつかの技術は微調整によって習得した知識を学べるが,事前学習中に学習した情報の除去に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-02T01:13:08Z) - How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Curriculum-style Data Augmentation for LLM-based Metaphor Detection [7.4594050203808395]
オープンソースLLMの微調整によるメタファ検出手法を提案する。
本手法は,すべてのベースラインにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T02:05:21Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。