Fugu-MT 論文翻訳(概要): Training Plug-n-Play Knowledge Modules with Deep Context Distillation

論文の概要: Training Plug-n-Play Knowledge Modules with Deep Context Distillation

arxiv url: http://arxiv.org/abs/2503.08727v1
Date: Tue, 11 Mar 2025 01:07:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 21:17:52.46141
Title: Training Plug-n-Play Knowledge Modules with Deep Context Distillation
Title（参考訳）: 深い文脈蒸留によるプラグ・n・プレイ知識モジュールの学習
Authors: Lucas Caccia, Alan Ansell, Edoardo Ponti, Ivan Vulić, Alessandro Sordoni,
Abstract要約: 本稿では,文書レベルの知識モジュール(KM)をトレーニングすることで,知識をモジュール化する手法を提案する。 KMはパラメータ効率のよいLoRAモジュールとして実装された軽量コンポーネントである。提案手法は,2つのデータセットにまたがって,標準的な次世代予測および事前指導訓練技術より優れる。
参考スコア（独自算出の注目度）: 52.94830874557649
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dynamically integrating new or rapidly evolving information after (Large) Language Model pre-training remains challenging, particularly in low-data scenarios or when dealing with private and specialized documents. In-context learning and retrieval-augmented generation (RAG) face limitations, including their high inference costs and their inability to capture global document information. In this paper, we propose a way of modularizing knowledge by training document-level Knowledge Modules (KMs). KMs are lightweight components implemented as parameter-efficient LoRA modules, which are trained to store information about new documents and can be easily plugged into models on demand. We show that next-token prediction performs poorly as the training objective for KMs. We instead propose Deep Context Distillation: we learn KMs parameters such as to simulate hidden states and logits of a teacher that takes the document in context. Our method outperforms standard next-token prediction and pre-instruction training techniques, across two datasets. Finally, we highlight synergies between KMs and retrieval-augmented generation.
Abstract（参考訳）: 言語モデル(Large Language Model)以降の新しい情報や急速に進化する情報を動的に統合することは、特にローデータシナリオやプライベートドキュメントや専門文書を扱う場合、依然として困難である。 In-context Learning and retrieve-augmented generation (RAG) は、高い推論コストと、グローバルな文書情報をキャプチャできないことを含む制限に直面している。本稿では,文書レベルの知識モジュール(KM)を訓練することで,知識をモジュール化する手法を提案する。 KMはパラメータ効率のよいLoRAモジュールとして実装された軽量なコンポーネントで、新しいドキュメントに関する情報を保存するために訓練され、必要に応じて簡単にプラグインできる。次点予測は,KMの学習目標として不十分であることを示す。その代わりに、Deep Context Distillationを提案する。我々は、文書を文脈で取る教師の隠れ状態やログをシミュレートするKMsパラメータを学ぶ。提案手法は,2つのデータセットにまたがって,標準的な次世代予測および事前指導訓練技術より優れる。最後に,KMsと検索拡張生成の相乗効果を強調した。

関連論文リスト

Memorization vs. Reasoning: Updating LLMs with New Knowledge [12.214561228023511]
我々は、現実的な知識更新をシミュレートする自動パイプラインであるKUP(Knowledge Update Playground)を紹介する。本稿では,自己生成した「メモリ」トークンの更新コーパスにトークンを条件付ける,MCT(Memory Conditioned Training)という軽量な手法を提案する。以上の結果から,(1) KUPベンチマークは非常に困難であり, 最高のCPTモデルでは, 間接的推論設定(推論)で2%$を達成し, (2) MCTトレーニングでは, 先行事前学習(CPT)ベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2025-04-16T23:03:40Z)
Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文参考訳（メタデータ） (2024-12-17T21:15:52Z)
MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning [62.78292142632335]
CIL(Class-Incremental Learning)は、古いクラスを忘れずに、新しいクラスの知識を継続的に獲得するモデルを必要とする。既存の作業は、モデルを調整するために軽量コンポーネントを活用することを目指している。従来の知識を忘れないようにモデルを救うため, モーデル手術(MOS)を提案する。
論文参考訳（メタデータ） (2024-12-12T16:57:20Z)
Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [25.301280441283147]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。 6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。その結果,命令対応検索データセットの微調整モデルでは性能が向上するが,ほとんどのモデルでは命令順守に欠けることがわかった。
論文参考訳（メタデータ） (2024-10-31T11:47:21Z)
Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文参考訳（メタデータ） (2024-06-17T19:11:40Z)
TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-17T13:04:35Z)
Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-02-20T09:20:32Z)
Knowledge-Augmented Reasoning Distillation for Small Language Models in Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-05-28T13:00:00Z)
Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models [46.079902719883414]
我々は,新しい事実と関連する知識を汎用言語モデルにプラグインするモジュール型フレームワークであるKnowledge Cardを提案する。まず、特定のドメインやソースからコーパスで訓練された特殊な言語モデルであるナレッジカードを紹介します。次に,知識カードが生成した文書中の情報を動的に選択・保持する3つのコンテンツセレクタを提案する。
論文参考訳（メタデータ） (2023-05-17T05:25:27Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Improving Meta-learning for Low-resource Text Classification and Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。本手法の有効性を証明するために理論的解析を行った。
論文参考訳（メタデータ） (2022-03-22T12:41:55Z)
REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文参考訳（メタデータ） (2020-02-10T18:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。