論文の概要: Kformer: Knowledge Injection in Transformer Feed-Forward Layers
- arxiv url: http://arxiv.org/abs/2201.05742v1
- Date: Sat, 15 Jan 2022 03:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 15:06:14.613896
- Title: Kformer: Knowledge Injection in Transformer Feed-Forward Layers
- Title(参考訳): Kformer: トランスフォーマーフィードフォワード層における知識注入
- Authors: Yunzhi Yao, Shaohan Huang, Ningyu Zhang, Li Dong, Furu Wei, Huajun
Chen
- Abstract要約: そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
- 参考スコア(独自算出の注目度): 107.71576133833148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-Enhanced Model have developed a diverse set of techniques for
knowledge integration on different knowledge sources. However, most previous
work neglect the language model's own ability and simply concatenate external
knowledge at the input. Recent work proposed that Feed Forward Network (FFN) in
pre-trained language model can be seen as an memory that stored factual
knowledge. In this work, we explore the FFN in Transformer and propose a novel
knowledge fusion model, namely Kformer, which incorporates external knowledge
through the feed-forward layer in Transformer. We empirically find that simply
injecting knowledge into FFN can enhance the pre-trained language model's
ability and facilitate current knowledge fusion methods. Our results on two
benchmarks in the commonsense reasoning (i.e., SocialIQA) and medical question
answering (i.e., MedQA-USMLE) domains demonstrate that Kformer can utilize
external knowledge deeply and achieves absolute improvements in these tasks.
- Abstract(参考訳): 知識強化モデルは、異なる知識ソース上での知識統合のための様々な技術セットを開発した。
しかし、ほとんどの以前の作品は言語モデルの能力を無視し、単に外部の知識を入力にまとめている。
最近の研究では、事前学習された言語モデルにおけるフィードフォワードネットワーク(ffn)は、事実的知識を格納したメモリと見なすことができる。
本研究では,変圧器のffnを探索し,変圧器のフィードフォワード層を介して外部知識を組み込んだ新しい知識融合モデルであるkformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合手法が促進される。
我々は,コモンセンス推論(SocialIQA)と医療質問応答(MedQA-USMLE)の2つのベンチマークの結果から,Kformerが外部知識を深く活用し,これらのタスクの絶対的改善を実現することを示す。
関連論文リスト
- Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。