論文の概要: Using Prior Knowledge to Guide BERT's Attention in Semantic Textual
Matching Tasks
- arxiv url: http://arxiv.org/abs/2102.10934v1
- Date: Mon, 22 Feb 2021 12:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:22:55.450864
- Title: Using Prior Knowledge to Guide BERT's Attention in Semantic Textual
Matching Tasks
- Title(参考訳): 先行知識を用いた意味的テキストマッチング作業におけるBERTの注意喚起
- Authors: Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang
- Abstract要約: 深層トランスフォーマーモデル(Bidirectional Representations from Transformers (BERT))に先行知識を組み込む問題について検討する。
BERTがもっとも必要とするタスク固有の知識と、それが最も必要である場所をよりよく理解する。
実験により,提案した知識を付加したBERTが意味的テキストマッチング性能を一貫して改善できることが実証された。
- 参考スコア(独自算出の注目度): 13.922700041632302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of incorporating prior knowledge into a deep
Transformer-based model,i.e.,Bidirectional Encoder Representations from
Transformers (BERT), to enhance its performance on semantic textual matching
tasks. By probing and analyzing what BERT has already known when solving this
task, we obtain better understanding of what task-specific knowledge BERT needs
the most and where it is most needed. The analysis further motivates us to take
a different approach than most existing works. Instead of using prior knowledge
to create a new training task for fine-tuning BERT, we directly inject
knowledge into BERT's multi-head attention mechanism. This leads us to a simple
yet effective approach that enjoys fast training stage as it saves the model
from training on additional data or tasks other than the main task. Extensive
experiments demonstrate that the proposed knowledge-enhanced BERT is able to
consistently improve semantic textual matching performance over the original
BERT model, and the performance benefit is most salient when training data is
scarce.
- Abstract(参考訳): 本研究では,Bidirectional Encoder Representations from Transformers (BERT) という深層トランスフォーマーに基づくモデルに事前知識を組み込むことで,意味的テキストマッチングタスクのパフォーマンスを高める問題を検討する。
この課題を解く際に、BERTがすでに知っていることを探索し分析することにより、BERTが最も必要とするタスク固有の知識と、それが最も必要である場所をよりよく理解する。
この分析は、既存のほとんどの作品と異なるアプローチを取る動機にもなります。
BERTを微調整するための新しいトレーニングタスクを作成するために、事前知識を使用する代わりに、BERTのマルチヘッドアテンションメカニズムに直接知識を注入する。
これにより、メインタスク以外の追加データやタスクのトレーニングからモデルを節約し、迅速なトレーニングステージを楽しむ、シンプルで効果的なアプローチが実現できます。
包括的な実験により,提案した知識を付加したBERTは,元のBERTモデルよりもセマンティックテキストマッチング性能を一貫して向上できることが示された。
関連論文リスト
- SpikeBERT: A Language Spikformer Learned from BERT with Knowledge
Distillation [31.777019330200705]
スパイキングニューラルネットワーク(SNN)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な道を提供する。
我々は最近提案されたスパイクトランスフォーマー(すなわち、Spikformer)を改善して、言語タスクの処理を可能にします。
提案手法で訓練したSpikeBERTは,最先端のSNNよりも優れており,英語と中国語のテキスト分類タスクにおけるBERTと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-08-29T08:41:16Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Continual Prompt Tuning for Dialog State Tracking [58.66412648276873]
望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学ぶことができるべきである。
本稿では,タスク間の知識伝達を可能にするパラメータ効率フレームワークであるContinuous Prompt Tuningを提案する。
論文 参考訳(メタデータ) (2022-03-13T13:22:41Z) - BERTVision -- A Parameter-Efficient Approach for Question Answering [0.0]
本稿では,BERTファインチューニングの必要性を大幅に低減する,質問応答に対するパラメータ効率の高い手法を提案する。
提案手法では,各BERTトランス層の隠れ状態アクティベーションから得られる情報を用いて,典型的なBERT推論時に破棄される。
実験の結果,本手法は多岐にわたるQAだけでなく,分類にも有効であり,より広い範囲のタスクに向いていることが示唆された。
論文 参考訳(メタデータ) (2022-02-24T17:16:25Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - On Commonsense Cues in BERT for Solving Commonsense Tasks [22.57431778325224]
BERTはCommonsenseQAなどのCommonsenseタスクの解決に使用されている。
本研究では,BERTにおけるコモンセンスタスクの解決における構造的コモンセンスキューの存在と,モデル予測におけるそのようなキューの重要性を定量的に検討する。
論文 参考訳(メタデータ) (2020-08-10T08:12:34Z) - What BERT Sees: Cross-Modal Transfer for Visual Question Generation [21.640299110619384]
補足データを用いた事前学習を回避して,BERTのアウト・オブ・ザ・ボックスの視覚能力について検討した。
テキスト生成のためのBERTベースのアーキテクチャであるBERT-genを導入する。
論文 参考訳(メタデータ) (2020-02-25T12:44:36Z) - Improving BERT Fine-Tuning via Self-Ensemble and Self-Distillation [84.64004917951547]
BERTのような微調整済みの言語モデルは、NLPにおいて効果的な方法となっている。
本稿では, BERTの微細調整を, 自己組織化と自己蒸留の2つの効果的なメカニズムで改善する。
論文 参考訳(メタデータ) (2020-02-24T16:17:12Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。