論文の概要: Enhancing Language Models with Plug-and-Play Large-Scale Commonsense
- arxiv url: http://arxiv.org/abs/2109.02572v1
- Date: Mon, 6 Sep 2021 16:16:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:42:43.316338
- Title: Enhancing Language Models with Plug-and-Play Large-Scale Commonsense
- Title(参考訳): プラグアンドプレイによる大規模コモンセンスによる言語モデルの拡張
- Authors: Wanyun Cui, Xingran Chen
- Abstract要約: テキストコモンセンス知識を用いて言語モデル(LM)を強化する方法について検討する。
事前学習を行わない大規模コモンセンス統合のためのプラグアンドプレイ方式を提案する。
- 参考スコア(独自算出の注目度): 2.1248439796866228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to enhance language models (LMs) with textual commonsense
knowledge. Previous work (e.g., KnowBERT) has focused on the integrating entity
knowledge from knowledge graphs. In order to introduce the external entity
embeddings, they learn to jointly represent the original sentences and external
knowledge by pre-training on a large scale corpus. However, when switching to
textual commonsense, unlike the light entity embeddings, the encoding of
commonsense descriptions is heavy. Therefore, the pre-training for learning to
jointly represent the target sentence and external commonsense descriptions is
unaffordable. On the other hand, since pre-trained LMs for representing the
target sentences alone are readily available, is it feasible to introduce
commonsense knowledge in downstream tasks by fine-tuning them only? In this
paper, we propose a plug-and-play method for large-scale commonsense
integration without pre-training. Our method is inspired by the observation
that in the regular fine-tuning for downstream tasks where no external
knowledge was introduced, the variation in the parameters of the language model
was minor. Our method starts from a pre-trained LM that represents the target
sentences only (e.g., BERT). We think that the pre-training for joint
representation learning can be avoided, if the joint representation reduces the
impact of parameters on the starting LM. Previous methods such as KnowBERT
proposed complex modifications to the vanilla LM to introduce external
knowledge. Our model (Cook-Transformer, COmmOnsense Knowledge-enhanced
Transformer), on the other hand, hardly changes the vanilla LM except adding a
knowledge token in each Transformer layer. In a variety of experiments,
COOK-Transformer-based BERT/RoBERTa improve their effect without any
pre-training.
- Abstract(参考訳): 言語モデル(lms)のテキスト常識知識による拡張方法について検討する。
これまでの作業(例えば KnowBERT)は、知識グラフからのエンティティ知識の統合に焦点を当ててきた。
外部エンティティ埋め込みを導入するために、大規模なコーパスで事前学習することで、元の文と外部知識を共同で表現することを学ぶ。
しかし、ライトエンティティの埋め込みとは異なり、テキストコモンセンスに切り替える場合、コモンセンスの記述の符号化は重い。
したがって、対象の文と外部のコモンセンス記述を共同で表現するための事前学習は困難である。
一方,目標文のみを表現するための事前学習したlmsは容易に利用できるため,下流タスクに共通知識を導入することは,微調整だけで可能か?
本稿では,事前学習を行わない大規模コモンセンス統合のためのプラグアンドプレイ方式を提案する。
本手法は,外部知識のない下流タスクの定期的微調整において,言語モデルのパラメータのばらつきが小さいという観測結果から着想を得たものである。
我々の方法は、目標文のみを表す事前訓練されたLM(例えばBERT)から始まる。
共同表現がLMの開始に対するパラメータの影響を減少させる場合、共同表現学習の事前学習は避けられると考えられる。
KnowBERTのような以前の手法は、外部知識を導入するためにバニラLMに複雑な修正を提案した。
一方、我々のモデル(Cook-Transformer, COmmOnsense Knowledge-enhanced Transformer)は、各トランスフォーマー層に知識トークンを追加する以外、バニラLMを変更することはほとんどありません。
様々な実験において、CoOK-TransformerをベースとしたBERT/RoBERTaは事前学習なしで効果を向上させる。
関連論文リスト
- Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Empowering Language Models with Knowledge Graph Reasoning for Question
Answering [117.79170629640525]
我々はknOwledge ReasOning empowered Language Model (OREO-LM)を提案する。
OREO-LMは、既存のTransformerベースのLMに柔軟に接続できる新しい知識相互作用層で構成されている。
クローズド・ブック・セッティングにおいて,最先端の成果が得られ,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-15T18:26:26Z) - Understanding Knowledge Integration in Language Models with Graph
Convolutions [28.306949176011763]
知識統合(KI)手法は、事前訓練された言語モデル(LM)に外部知識を統合することを目的としている
本稿では,これらのモデルにおけるKI過程を情報理論的視点で再検討し,グラフ畳み込み演算を用いてKIを解釈可能であることを示す。
ERNIE と K-Adapter の 2 つのよく知られた知識強化LM を解析した結果,少量の事実知識が組み込まれていることがわかった。
論文 参考訳(メタデータ) (2022-02-02T11:23:36Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Knowledge-Aware Language Model Pretraining [29.56904859722379]
トランスフォーマーアーキテクチャを変更することなく、言語モデルの事前学習に知識認識を取り入れる。
LAMA知識探索タスクにおける言語モデリング精度の向上,事実的正当性,エッジ探索による隠れ表現の意味性について検討した。
我々の知識認識言語モデル(KALM)は、GPT-2モデルの代替となる。
論文 参考訳(メタデータ) (2020-06-29T06:09:59Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z) - Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers [54.417299589288184]
本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
論文 参考訳(メタデータ) (2020-05-24T15:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。