論文の概要: KILM: Knowledge Injection into Encoder-Decoder Language Models
- arxiv url: http://arxiv.org/abs/2302.09170v1
- Date: Fri, 17 Feb 2023 22:48:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 20:08:29.849334
- Title: KILM: Knowledge Injection into Encoder-Decoder Language Models
- Title(参考訳): KILM:エンコーダ-デコーダ言語モデルへの知識注入
- Authors: Yan Xu, Mahdi Namazifar, Devamanyu Hazarika, Aishwarya Padmakumar,
Yang Liu, Dilek Hakkani-T\"ur
- Abstract要約: 大規模事前学習言語モデル(PLM)は、パラメータ内で暗黙の知識を保持することが示されている。
本稿では,エンティティ関連知識をエンコーダ・デコーダ PLM に注入する手法として,言語モデルへの知識注入(KILM)を提案する。
KILMは、一般的なNLUタスクやNLGタスクでの本来のパフォーマンスを維持しながら、モデルがより多くの知識を保持し、幻覚を少なくすることを可能にする。
- 参考スコア(独自算出の注目度): 26.44077668498835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models (PLMs) have been shown to retain implicit
knowledge within their parameters. To enhance this implicit knowledge, we
propose Knowledge Injection into Language Models (KILM), a novel approach that
injects entity-related knowledge into encoder-decoder PLMs, via a generative
knowledge infilling objective through continued pre-training. This is done
without architectural modifications to the PLMs or adding additional
parameters. Experimental results over a suite of knowledge-intensive tasks
spanning numerous datasets show that KILM enables models to retain more
knowledge and hallucinate less, while preserving their original performance on
general NLU and NLG tasks. KILM also demonstrates improved zero-shot
performances on tasks such as entity disambiguation, outperforming
state-of-the-art models having 30x more parameters.
- Abstract(参考訳): 大規模事前学習言語モデル(PLM)は、パラメータ内で暗黙の知識を保持することが示されている。
この暗黙的知識を高めるために,我々は,エンコーダ・デコーダ PLM にエンティティ関連知識を注入する新しいアプローチである言語モデルへの知識注入(KILM)を提案する。
これは、PLMのアーキテクチャ変更や追加パラメータの追加なしに行われる。
多数のデータセットにまたがる一連の知識集約タスクに対する実験結果から、KILMは一般的なNLUタスクやNLGタスクでの本来のパフォーマンスを維持しながら、モデルをより多くの知識を維持し、幻覚を少なくすることができることが示された。
KILMはまた、エンティティの曖昧さ、30倍のパラメータを持つ最先端モデルの性能など、タスクにおけるゼロショットのパフォーマンスの改善も示した。
関連論文リスト
- KaLM: Knowledge-aligned Autoregressive Language Modeling via Dual-view Knowledge Graph Contrastive Learning [74.21524111840652]
本稿では、textitKnowledge-aligned Language Modeling アプローチである textbfKaLM を提案する。
明示的な知識アライメントと暗黙的な知識アライメントという共同目的を通じて、KG知識と整合するように、自己回帰的な大規模言語モデルを微調整する。
特に,本手法は知識駆動型タスクの評価において顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2024-12-06T11:08:24Z) - TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。
我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。
我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T13:04:35Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。