論文の概要: Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers
- arxiv url: http://arxiv.org/abs/2005.11787v2
- Date: Sun, 11 Oct 2020 11:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:41:23.749863
- Title: Common Sense or World Knowledge? Investigating Adapter-Based Knowledge
Injection into Pretrained Transformers
- Title(参考訳): 常識か世界知識か?
プレトレーニングトランスへのアダプタベースの知識注入の検討
- Authors: Anne Lauscher and Olga Majewska and Leonardo F. R. Ribeiro and Iryna
Gurevych and Nikolai Rozanov and Goran Glava\v{s}
- Abstract要約: 本研究では,概念ネットとそれに対応するオープンマインド・コモンセンス(OMCS)コーパスから,BERTの分布知識と概念知識を補完するモデルについて検討する。
我々のアダプタベースのモデルは,ConceptNet や OMCS に明示的に存在する概念的知識のタイプを必要とする推論タスクにおいて,BERT を大幅に上回っている。
- 参考スコア(独自算出の注目度): 54.417299589288184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Following the major success of neural language models (LMs) such as BERT or
GPT-2 on a variety of language understanding tasks, recent work focused on
injecting (structured) knowledge from external resources into these models.
While on the one hand, joint pretraining (i.e., training from scratch, adding
objectives based on external knowledge to the primary LM objective) may be
prohibitively computationally expensive, post-hoc fine-tuning on external
knowledge, on the other hand, may lead to the catastrophic forgetting of
distributional knowledge. In this work, we investigate models for complementing
the distributional knowledge of BERT with conceptual knowledge from ConceptNet
and its corresponding Open Mind Common Sense (OMCS) corpus, respectively, using
adapter training. While overall results on the GLUE benchmark paint an
inconclusive picture, a deeper analysis reveals that our adapter-based models
substantially outperform BERT (up to 15-20 performance points) on inference
tasks that require the type of conceptual knowledge explicitly present in
ConceptNet and OMCS. All code and experiments are open sourced under:
https://github.com/wluper/retrograph .
- Abstract(参考訳): さまざまな言語理解タスクにおけるBERTやGPT-2などのニューラルネットワークモデル(LM)の大きな成功に続いて、最近の研究は、外部リソースからの(構造化された)知識をこれらのモデルに注入することに焦点を当てている。
一方、共同事前訓練(例えば、ゼロからトレーニングし、外部知識に基づく目的をLMの目的に付加する)は、計算的に高価である可能性があるが、一方、外部知識に基づくポストホック微調整は、分布知識を壊滅的に忘れてしまう可能性がある。
本研究では, BERTの分布的知識をConceptNetとそれに対応するOpen Mind Common Sense(OMCS)コーパスの概念的知識と相補するモデルについて, アダプタトレーニングを用いて検討する。
GLUEベンチマークの全体的な結果は決定性に欠けるが、より深い分析により、私たちのアダプタベースのモデルは、ConceptNetやOMCSに明示的に存在する概念的知識のタイプを必要とする推論タスクにおいてBERT(最大15~20パフォーマンスポイント)を大幅に上回っていることが明らかになった。
すべてのコードと実験は、https://github.com/wluper/retrograph.comで公開されている。
関連論文リスト
- CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning [45.62134354858683]
CANDLEは、コモンセンス知識ベースに対する概念化とインスタンス化を反復的に行うフレームワークである。
CANDLEをATOMICに適用することにより、600万の概念化と三重項のインスタンス化を含む総合的な知識基盤を構築する。
論文 参考訳(メタデータ) (2024-01-14T13:24:30Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - K-XLNet: A General Method for Combining Explicit Knowledge with Language
Model Pretraining [5.178964604577459]
明示的な知識を活用することで、モデルの事前訓練を改善することに重点を置いています。
具体的には、まず知識グラフ(KG)から知識事実をマッチングし、次に直接変換器に知識命令層を追加する。
実験の結果,変圧器に外部知識を加えるだけで,多くのNLPタスクにおける学習性能が向上することが示された。
論文 参考訳(メタデータ) (2021-03-25T06:14:18Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。