論文の概要: Knowledge-Aware Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2007.00655v2
- Date: Thu, 4 Feb 2021 06:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:09:36.563501
- Title: Knowledge-Aware Language Model Pretraining
- Title(参考訳): 知識認識言語モデルの事前学習
- Authors: Corby Rosset, Chenyan Xiong, Minh Phan, Xia Song, Paul Bennett,
Saurabh Tiwary
- Abstract要約: トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
- 参考スコア(独自算出の注目度): 29.56904859722379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much knowledge do pretrained language models hold? Recent research
observed that pretrained transformers are adept at modeling semantics but it is
unclear to what degree they grasp human knowledge, or how to ensure they do so.
In this paper we incorporate knowledge-awareness in language model pretraining
without changing the transformer architecture, inserting explicit knowledge
layers, or adding external storage of semantic information. Rather, we simply
signal the existence of entities to the input of the transformer in
pretraining, with an entity-extended tokenizer; and at the output, with an
additional entity prediction task. Our experiments show that solely by adding
these entity signals in pretraining, significantly more knowledge is packed
into the transformer parameters: we observe improved language modeling
accuracy, factual correctness in LAMA knowledge probing tasks, and semantics in
the hidden representations through edge probing.We also show that our
knowledge-aware language model (KALM) can serve as a drop-in replacement for
GPT-2 models, significantly improving downstream tasks like zero-shot
question-answering with no task-related training.
- Abstract(参考訳): 事前訓練された言語モデルはどの程度の知識を持っているか?
最近の研究では、事前訓練されたトランスフォーマーはセマンティクスのモデル化に長けているが、人間の知識をどの程度把握しているか、どのようにそうするかは不明である。
本稿では、トランスフォーマーアーキテクチャを変更したり、明示的な知識層を挿入したり、意味情報の外部記憶を追加することなく、言語モデルに知識認識を組み込む。
むしろ、事前学習における変換器の入力に対するエンティティの存在を、エンティティ拡張トークン化器、および出力において、追加のエンティティ予測タスクで信号するだけである。
Our experiments show that solely by adding these entity signals in pretraining, significantly more knowledge is packed into the transformer parameters: we observe improved language modeling accuracy, factual correctness in LAMA knowledge probing tasks, and semantics in the hidden representations through edge probing.We also show that our knowledge-aware language model (KALM) can serve as a drop-in replacement for GPT-2 models, significantly improving downstream tasks like zero-shot question-answering with no task-related training.
関連論文リスト
- Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - HYDRA -- Hyper Dependency Representation Attentions [4.697611383288171]
そこで本稿では,トランスフォーマーモデルに知識を注入するために,事前学習を行うことなく,より軽量な言語自己意図型ヘッドを提案する。
私たちのアプローチは、教師なしの学習をモデルに残して、言語知識を厳格に適合させるというバランスのとれたパラダイムです。
我々は,言語知識のトランスフォーマーモデルへの貢献を示すために,ベンチマークデータセットのフレームワークを実証的に検証した。
論文 参考訳(メタデータ) (2021-09-11T19:17:34Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Modifying Memories in Transformer Models [71.48657481835767]
本稿では,トランスフォーマーモデルにおいて,特定の事実知識を巧みに修正するタスクを提案する。
このタスクは、古い知識の更新、プライバシ保護、モデルに格納されている意図しないバイアスの排除など、多くのシナリオで有用である。
論文 参考訳(メタデータ) (2020-12-01T09:39:13Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。