論文の概要: Training Plug-n-Play Knowledge Modules with Deep Context Distillation
- arxiv url: http://arxiv.org/abs/2503.08727v1
- Date: Tue, 11 Mar 2025 01:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:03.882789
- Title: Training Plug-n-Play Knowledge Modules with Deep Context Distillation
- Title(参考訳): 深い文脈蒸留によるプラグ・n・プレイ知識モジュールの学習
- Authors: Lucas Caccia, Alan Ansell, Edoardo Ponti, Ivan Vulić, Alessandro Sordoni,
- Abstract要約: 本稿では,文書レベルの知識モジュール(KM)をトレーニングすることで,知識をモジュール化する手法を提案する。
KMはパラメータ効率のよいLoRAモジュールとして実装された軽量コンポーネントである。
提案手法は,2つのデータセットにまたがって,標準的な次世代予測および事前指導訓練技術より優れる。
- 参考スコア(独自算出の注目度): 52.94830874557649
- License:
- Abstract: Dynamically integrating new or rapidly evolving information after (Large) Language Model pre-training remains challenging, particularly in low-data scenarios or when dealing with private and specialized documents. In-context learning and retrieval-augmented generation (RAG) face limitations, including their high inference costs and their inability to capture global document information. In this paper, we propose a way of modularizing knowledge by training document-level Knowledge Modules (KMs). KMs are lightweight components implemented as parameter-efficient LoRA modules, which are trained to store information about new documents and can be easily plugged into models on demand. We show that next-token prediction performs poorly as the training objective for KMs. We instead propose Deep Context Distillation: we learn KMs parameters such as to simulate hidden states and logits of a teacher that takes the document in context. Our method outperforms standard next-token prediction and pre-instruction training techniques, across two datasets. Finally, we highlight synergies between KMs and retrieval-augmented generation.
- Abstract(参考訳): 言語モデル(Large Language Model)以降の新しい情報や急速に進化する情報を動的に統合することは、特にローデータシナリオやプライベートドキュメントや専門文書を扱う場合、依然として困難である。
In-context Learning and retrieve-augmented generation (RAG) は、高い推論コストと、グローバルな文書情報をキャプチャできないことを含む制限に直面している。
本稿では,文書レベルの知識モジュール(KM)を訓練することで,知識をモジュール化する手法を提案する。
KMはパラメータ効率のよいLoRAモジュールとして実装された軽量なコンポーネントで、新しいドキュメントに関する情報を保存するために訓練され、必要に応じて簡単にプラグインできる。
次点予測は,KMの学習目標として不十分であることを示す。
その代わりに、Deep Context Distillationを提案する。我々は、文書を文脈で取る教師の隠れ状態やログをシミュレートするKMsパラメータを学ぶ。
提案手法は,2つのデータセットにまたがって,標準的な次世代予測および事前指導訓練技術より優れる。
最後に,KMsと検索拡張生成の相乗効果を強調した。
関連論文リスト
- Experience of Training a 1.7B-Parameter LLaMa Model From Scratch [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。
我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。
これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文 参考訳(メタデータ) (2024-12-17T21:15:52Z) - MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning [62.78292142632335]
CIL(Class-Incremental Learning)は、古いクラスを忘れずに、新しいクラスの知識を継続的に獲得するモデルを必要とする。
既存の作業は、モデルを調整するために軽量コンポーネントを活用することを目指している。
従来の知識を忘れないようにモデルを救うため, モーデル手術(MOS)を提案する。
論文 参考訳(メタデータ) (2024-12-12T16:57:20Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。
我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。
我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T13:04:35Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。
大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-20T09:20:32Z) - Retrieval-Augmented Meta Learning for Low-Resource Text Classification [22.653220906899612]
検索型メタ学習(RAML)というメタ学習手法を提案する。
推論にはパラメータ化を使用するが、外部コーパスから非パラメトリック知識を取得して推論を行う。
RAMLは、現在のSOTA低リソーステキスト分類モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-09-10T10:05:03Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。