論文の概要: Syntax-Enhanced Pre-trained Model
- arxiv url: http://arxiv.org/abs/2012.14116v1
- Date: Mon, 28 Dec 2020 06:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:06:58.554036
- Title: Syntax-Enhanced Pre-trained Model
- Title(参考訳): 構文強化プレトレーニングモデル
- Authors: Zenan Xu, Daya Guo, Duyu Tang, Qinliang Su, Linjun Shou, Ming Gong,
Wanjun Zhong, Xiaojun Quan, Nan Duan and Daxin Jiang
- Abstract要約: BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
- 参考スコア(独自算出の注目度): 49.1659635460369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of leveraging the syntactic structure of text to enhance
pre-trained models such as BERT and RoBERTa. Existing methods utilize syntax of
text either in the pre-training stage or in the fine-tuning stage, so that they
suffer from discrepancy between the two stages. Such a problem would lead to
the necessity of having human-annotated syntactic information, which limits the
application of existing methods to broader scenarios. To address this, we
present a model that utilizes the syntax of text in both pre-training and
fine-tuning stages. Our model is based on Transformer with a syntax-aware
attention layer that considers the dependency tree of the text. We further
introduce a new pre-training task of predicting the syntactic distance among
tokens in the dependency tree. We evaluate the model on three downstream tasks,
including relation classification, entity typing, and question answering.
Results show that our model achieves state-of-the-art performance on six public
benchmark datasets. We have two major findings. First, we demonstrate that
infusing automatically produced syntax of text improves pre-trained models.
Second, global syntactic distances among tokens bring larger performance gains
compared to local head relations between contiguous tokens.
- Abstract(参考訳): 本研究では, BERT や RoBERTa などの事前学習モデルを強化するために, テキストの構文構造を活用するという課題について検討する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
このような問題は、既存のメソッドの幅広いシナリオへの適用を制限する、人間に注釈をつけた構文情報を持つことの必要性につながる。
そこで本研究では,事前学習と微調整の両方でテキストの構文を利用するモデルを提案する。
我々のモデルは、テキストの依存性ツリーを考慮に入れた構文対応の注意層を備えたTransformerに基づいている。
さらに,依存ツリー内のトークン間の構文距離を予測するための事前学習タスクを導入する。
我々は,関係分類,エンティティタイピング,質問応答を含む3つの下流タスクのモデルを評価する。
その結果,本モデルが6つの公開ベンチマークデータセット上での最先端性能を実現することがわかった。
主な発見は2つある。
まず,テキストの自動生成構文が事前学習モデルを改善することを示す。
第2に、トークン間のグローバル構文距離は、連続したトークン間のローカルなヘッドリレーションよりも大きなパフォーマンス向上をもたらす。
関連論文リスト
- On Eliciting Syntax from Language Models via Hashing [19.872554909401316]
教師なし構文解析は、生のテキストから構文構造を推論することを目的としている。
本稿では,本機能を利用して生テキストから解析木を推定する可能性について検討する。
本手法は,事前学習した言語モデルから高品質な構文解析木を低コストで取得する上で,有効かつ効率的であることを示す。
論文 参考訳(メタデータ) (2024-10-05T08:06:19Z) - JOIST: A Joint Speech and Text Streaming Model For ASR [63.15848310748753]
JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。
JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセットのWERを4-14%改善することがわかった。
論文 参考訳(メタデータ) (2022-10-13T20:59:22Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。
本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文 参考訳(メタデータ) (2021-01-09T12:15:08Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。