論文の概要: Improving BERT with Syntax-aware Local Attention
- arxiv url: http://arxiv.org/abs/2012.15150v1
- Date: Wed, 30 Dec 2020 13:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 13:32:12.772411
- Title: Improving BERT with Syntax-aware Local Attention
- Title(参考訳): 構文を意識したローカル注意によるbertの改善
- Authors: Zhongli Li, Qingyu Zhou, Chao Li, Ke Xu, Yunbo Cao
- Abstract要約: そこで本研究では,構文構造における距離を対象とする局所的注意度(局所注意度)を提案する。
文分類やシーケンスラベリングタスクなど,シングルセンテンスベンチマークの各種実験を行った。
我々のモデルは、構文的に関連のある単語により注意を払って、より良いパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 14.70545694771721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Transformer-based neural language models, such as BERT, have
achieved remarkable results on varieties of NLP tasks. Recent works have shown
that attention-based models can benefit from more focused attention over local
regions. Most of them restrict the attention scope within a linear span, or
confine to certain tasks such as machine translation and question answering. In
this paper, we propose a syntax-aware local attention, where the attention
scopes are restrained based on the distances in the syntactic structure. The
proposed syntax-aware local attention can be integrated with pretrained
language models, such as BERT, to render the model to focus on syntactically
relevant words. We conduct experiments on various single-sentence benchmarks,
including sentence classification and sequence labeling tasks. Experimental
results show consistent gains over BERT on all benchmark datasets. The
extensive studies verify that our model achieves better performance owing to
more focused attention over syntactically relevant words.
- Abstract(参考訳): BERTのような、トレーニング済みのTransformerベースのニューラルネットワークモデルは、さまざまなNLPタスクにおいて顕著な成果を上げている。
近年の研究では、注意に基づくモデルが地域に対するより集中的な注意の恩恵を受けることが示された。
その多くは、線形スパン内の注意範囲を制限するか、機械翻訳や質問応答のような特定のタスクに限定する。
本稿では,構文構造における距離に基づいて注意範囲を制限した構文認識型局所的注意を提案する。
提案した構文認識ローカルアテンションは、BERTのような事前訓練された言語モデルと統合して、構文的に関連する単語にフォーカスするためにモデルをレンダリングすることができる。
文分類やシーケンスラベリングタスクなど,シングルセンテンスベンチマークの各種実験を行った。
実験結果は、すべてのベンチマークデータセット上でBERTよりも一貫した利得を示している。
本研究は,構文的に関連した単語に注目が集まることにより,より優れた性能が得られることを示す。
関連論文リスト
- Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。
特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。
実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文 参考訳(メタデータ) (2022-05-23T13:46:35Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - AStitchInLanguageModels: Dataset and Methods for the Exploration of
Idiomaticity in Pre-Trained Language Models [7.386862225828819]
本研究は、MWEを含む自然発生文のデータセットを、細かな意味の集合に手作業で分類する。
我々は,このデータセットを,idiomを含む文の表現生成における言語モデルの有効性と,idiomを用いた言語モデルの有効性を検証するために,2つのタスクで使用する。
論文 参考訳(メタデータ) (2021-09-09T16:53:17Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Incorporating External POS Tagger for Punctuation Restoration [11.573672075002007]
触覚回復は自動音声認識において重要な後処理ステップである。
Part-of-speech(POS)タグは情報タグを提供し、各入力トークンの構文的役割を示唆する。
外部POSタグを組み込んで予測ラベルを既存の言語モデルに融合し,構文情報を提供する。
論文 参考訳(メタデータ) (2021-06-12T09:58:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。