論文の概要: Decouple knowledge from parameters for plug-and-play language modeling
- arxiv url: http://arxiv.org/abs/2305.11564v2
- Date: Mon, 18 Sep 2023 09:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:48:30.225472
- Title: Decouple knowledge from parameters for plug-and-play language modeling
- Title(参考訳): プラグアンドプレイ言語モデリングのためのパラメータからの知識の分離
- Authors: Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan
- Abstract要約: 差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
- 参考スコア(独自算出の注目度): 77.5601135412186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models(PLM) have made impressive results in various NLP
tasks. It has been revealed that one of the key factors to their success is the
parameters of these models implicitly learn all kinds of knowledge during
pre-training. However, encoding knowledge implicitly in the model parameters
has two fundamental drawbacks. First, the knowledge is neither editable nor
scalable once the model is trained, which is especially problematic in that
knowledge is consistently evolving. Second, it lacks interpretability and
prevents humans from understanding which knowledge PLM requires for a certain
problem. In this paper, we introduce PlugLM, a pre-training model with
differentiable plug-in memory(DPM). The key intuition is to decouple the
knowledge storage from model parameters with an editable and scalable key-value
memory and leverage knowledge in an explainable manner by knowledge retrieval
in the DPM. To justify this design choice, we conduct evaluations in three
settings including: (1) domain adaptation. PlugLM obtains 3.95 F1 improvements
across four domains on average without any in-domain pre-training. (2)
knowledge update. PlugLM could absorb new knowledge in a training-free way
after pre-training is done. (3) in-task knowledge learning. PlugLM could be
further improved by incorporating training samples into DPM with knowledge
prompting.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々なNLPタスクにおいて印象的な結果をもたらした。
成功の鍵となる要因の1つは、これらのモデルのパラメーターが、事前学習中に暗黙的にあらゆる種類の知識を学習することである。
しかし、モデルパラメータに暗黙的に知識をエンコーディングすることは、2つの根本的な欠点がある。
第一に、モデルがトレーニングされると、その知識は編集可能でもスケーラブルでもない。
第二に、解釈可能性に欠けており、ある問題に PLM が必要とする知識を人間が理解できないようにする。
本稿では,差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルであるPlugLMを紹介する。
鍵となる直感は、モデルパラメータから編集可能でスケーラブルなキーバリューメモリで知識ストレージを分離し、DPMの知識検索によって説明可能な方法で知識を活用することである。
この設計選択を正当化するために、(1)ドメイン適応を含む3つの設定で評価を行う。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
(2) 知識更新。
PlugLMは、事前トレーニングが完了した後、トレーニング不要の方法で新しい知識を吸収する可能性がある。
(3)タスク内知識学習。
訓練サンプルをDPMに組み込むことで、PlugLMをさらに改善することができる。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Plug-and-Play Knowledge Injection for Pre-trained Language Models [116.37916535076478]
外部知識を注入することで、様々な下流NLPタスクにおける事前学習言語モデル(PLM)の性能を向上させることができる。
下流タスクのための新しい知識注入方法や知識ベースを展開するには、大規模な再訓練が必要である。
既存の下流モデルを用いて知識注入の柔軟性と効率を改善する方法について検討する。
論文 参考訳(メタデータ) (2023-05-28T10:58:00Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification
and Reasoning Abilities of Language Models [28.82149012250609]
我々はKMIR(Knowledge Memorization, Identification and Reasoning test)というベンチマークを提案する。
KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。
KMIR上での様々な代表的な事前学習言語モデルによる予備実験は、多くの興味深い現象を示す。
論文 参考訳(メタデータ) (2022-02-28T03:52:57Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。