論文の概要: K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
- arxiv url: http://arxiv.org/abs/2002.01808v5
- Date: Mon, 28 Dec 2020 06:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 20:52:56.555936
- Title: K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
- Title(参考訳): K-Adapter: アダプタを用いた事前学習モデルへの知識注入
- Authors: Ruize Wang, Duyu Tang, Nan Duan, Zhongyu Wei, Xuanjing Huang, Jianshu
ji, Guihong Cao, Daxin Jiang, Ming Zhou
- Abstract要約: 本研究では,BERT や RoBERTa のような大規模事前学習モデルに知識を注入する問題について検討する。
既存のメソッドは通常、知識を注入する際、事前訓練されたモデルの元のパラメータを更新する。
K-Adapterは、事前訓練されたモデルの元のパラメータを固定し、多目的な知識注入モデルの開発を支援するフレームワークである。
- 参考スコア(独自算出の注目度): 136.75235546149995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of injecting knowledge into large pre-trained models
like BERT and RoBERTa. Existing methods typically update the original
parameters of pre-trained models when injecting knowledge. However, when
multiple kinds of knowledge are injected, the historically injected knowledge
would be flushed away. To address this, we propose K-Adapter, a framework that
retains the original parameters of the pre-trained model fixed and supports the
development of versatile knowledge-infused model. Taking RoBERTa as the
backbone model, K-Adapter has a neural adapter for each kind of infused
knowledge, like a plug-in connected to RoBERTa. There is no information flow
between different adapters, thus multiple adapters can be efficiently trained
in a distributed way. As a case study, we inject two kinds of knowledge in this
work, including (1) factual knowledge obtained from automatically aligned
text-triplets on Wikipedia and Wikidata and (2) linguistic knowledge obtained
via dependency parsing. Results on three knowledge-driven tasks, including
relation classification, entity typing, and question answering, demonstrate
that each adapter improves the performance and the combination of both adapters
brings further improvements. Further analysis indicates that K-Adapter captures
versatile knowledge than RoBERTa.
- Abstract(参考訳): 本研究では,BERTやRoBERTaといった大規模事前学習モデルに知識を注入する問題について検討する。
既存のメソッドは通常、知識を注入する際、トレーニング済みモデルの元のパラメータを更新する。
しかし、複数の種類の知識が注入されると、歴史的に注入された知識が流出する。
そこで本研究では,事前学習モデルの初期パラメータを固定したフレームワークであるK-Adapterを提案し,多種多様な知識注入モデルの開発を支援する。
RoBERTaをバックボーンモデルとすることで、K-Adapterは、RoBERTaに接続されたプラグインのような、注入された知識ごとにニューラルアダプターを持つ。
異なるアダプタ間の情報フローはなく、複数のアダプタを分散的に効率的にトレーニングすることができる。
本研究の事例として,(1)ウィキペディアとウィキデータに自動的にアライメントされたテキストトリップレットから得られた事実知識,(2)依存関係解析による言語知識の2つの知識を注入する。
関係分類、エンティティタイプ、質問応答を含む3つの知識駆動タスクの結果は、各アダプタのパフォーマンスが向上し、両方のアダプタの組み合わせがさらに改善されることを示している。
さらに分析したところ、K-AdapterはRoBERTaよりも多彩な知識を捉えている。
関連論文リスト
- Auto-selected Knowledge Adapters for Lifelong Person Re-identification [54.42307214981537]
Lifelong Person Re-Identificationは、異なる時間と場所にわたる重複しないデータセットから継続的に学習するシステムを必要とする。
リハーサルのない、あるいはリハーサルベースの既存のアプローチは、依然として破滅的な忘れ込みの問題に悩まされている。
本稿では,知識アダプタを採用した新しいフレームワークであるAdalReIDと,生涯学習のためのパラメータフリー自動選択機構を提案する。
論文 参考訳(メタデータ) (2024-05-29T11:42:02Z) - AdapterDistillation: Non-Destructive Task Composition with Knowledge
Distillation [12.648208238878468]
本稿では,AdapterDistillationと呼ばれる2段階の知識蒸留アルゴリズムを提案する。
最初の段階では、ローカルデータを用いてタスク固有の知識を抽出し、学生のアダプタを訓練する。
第2段階では、既存の教師アダプタからの知識を学生アダプタに蒸留し、その推論を支援する。
論文 参考訳(メタデータ) (2023-12-26T07:01:00Z) - Plug-and-Play Knowledge Injection for Pre-trained Language Models [116.37916535076478]
外部知識を注入することで、様々な下流NLPタスクにおける事前学習言語モデル(PLM)の性能を向上させることができる。
下流タスクのための新しい知識注入方法や知識ベースを展開するには、大規模な再訓練が必要である。
既存の下流モデルを用いて知識注入の柔軟性と効率を改善する方法について検討する。
論文 参考訳(メタデータ) (2023-05-28T10:58:00Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - AdapterFusion: Non-Destructive Task Composition for Transfer Learning [104.9639614787314]
逐次微調整とマルチタスク学習は、複数のタスクから知識を取り入れることを目的とした手法である。
本稿では,複数のタスクからの知識を活用する2段階学習アルゴリズムAdapterFusionを提案する。
提案手法は,マルチタスク学習だけでなく,フルチューニングやマルチタスク学習といった従来の戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T07:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。