論文の概要: Commonsense Knowledge Transfer for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.02388v1
- Date: Sun, 4 Jun 2023 15:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:17:44.405906
- Title: Commonsense Knowledge Transfer for Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルのための常識的知識伝達
- Authors: Wangchunshu Zhou, Ronan Le Bras, Yejin Choi
- Abstract要約: ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
- 参考スコア(独自算出の注目度): 83.01121484432801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite serving as the foundation models for a wide range of NLP benchmarks,
pre-trained language models have shown limited capabilities of acquiring
implicit commonsense knowledge from self-supervision alone, compared to
learning linguistic and factual knowledge that appear more explicitly in the
surface patterns in text. In this work, we introduce commonsense knowledge
transfer, a framework to transfer the commonsense knowledge stored in a neural
commonsense knowledge model to a general-purpose pre-trained language model. It
first exploits general texts to form queries for extracting commonsense
knowledge from the neural commonsense knowledge model and then refines the
language model with two self-supervised objectives: commonsense mask infilling
and commonsense relation prediction, which align human language with the
underlying commonsense knowledge. Empirical results show that our approach
consistently improves the model's performance on downstream tasks that require
commonsense reasoning. Moreover, we find that the improvement is more
significant in the few-shot setting. This suggests that our approach helps
language models better transfer to downstream tasks without extensive
supervision by injecting commonsense knowledge into their parameters.
- Abstract(参考訳): 幅広いNLPベンチマークの基礎モデルとして機能するにもかかわらず、事前訓練された言語モデルは、テキストの表面パターンにより明確に現れる言語的および事実的知識の学習と比較して、自己スーパービジョンのみから暗黙のコモンセンス知識を取得する能力の限界を示した。
本稿では,ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用事前学習言語モデルに転送するフレームワークであるcommonsense knowledge transferを提案する。
まず、一般的なテキストを使用して、ニューラルネットワークのコモンセンス知識モデルからコモンセンス知識を抽出するクエリを作成し、その後、コモンセンスマスクインフィルディングとコモンセンス関係予測という2つの自己教師付き目標で言語モデルを洗練する。
実験結果から,本手法はコモンセンス推論を必要とする下流タスクにおけるモデルの性能を一貫して改善することを示す。
さらに, 数点設定では改善がより重要であることがわかった。
このことから,本手法は,コモンセンス知識をパラメータに注入することにより,広範囲の監視を伴わずに,下流タスクへの言語モデル導入を支援することが示唆された。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - A Survey of Knowledge-Intensive NLP with Pre-Trained Language Models [185.08295787309544]
我々は、事前訓練された言語モデルに基づく知識強化モデル(PLMKEs)の現在の進歩を要約することを目的としている。
本論では,3つの要素に関する議論に基づくPLMKEの課題について述べるとともに,NLP実践者にさらなる研究の道筋を示そうとしている。
論文 参考訳(メタデータ) (2022-02-17T17:17:43Z) - Does Pre-training Induce Systematic Inference? How Masked Language
Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。
一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T03:13:04Z) - DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for
Natural Language Understanding [19.478288026844893]
知識強化事前学習言語モデル(英: Knowledge-Enhanced Pre-trained Language Models, KEPLM)は、知識グラフから3重関係を注入して言語理解能力を向上させる事前学習モデルである。
従来の研究は、知識グラフから得られた知識を表現するための知識エンコーダとモデルを統合する。
本稿では,事前学習,微調整,推論段階における事前学習言語モデルの知識注入過程を分解する,DKPLMという新しいKEPLMを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:19:42Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - A Survey of Knowledge Enhanced Pre-trained Models [28.160826399552462]
知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(KEPLM)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
論文 参考訳(メタデータ) (2021-10-01T08:51:58Z) - Unsupervised Commonsense Question Answering with Self-Talk [71.63983121558843]
本稿では,コモンセンスタスクの代替として,セルフトークに基づく教師なしフレームワークを提案する。
探索に基づく探索学習にインスパイアされた我々のアプローチは、質問を求める多くの情報で言語モデルに問い合わせる。
実験結果から,ゼロショット言語モデルベースラインの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-11T20:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。