論文の概要: Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models
- arxiv url: http://arxiv.org/abs/2207.05928v1
- Date: Wed, 13 Jul 2022 02:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 14:18:54.975470
- Title: Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models
- Title(参考訳): 中国語事前学習モデルの文字表現強化のための単語セマンティクスの展開
- Authors: Wenbiao Li, Rui Sun, Yunfang Wu
- Abstract要約: 本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 12.0190584907439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the Chinese pre-trained models adopt characters as basic units for
downstream tasks. However, these models ignore the information carried by words
and thus lead to the loss of some important semantics. In this paper, we
propose a new method to exploit word structure and integrate lexical semantics
into character representations of pre-trained models. Specifically, we project
a word's embedding into its internal characters' embeddings according to the
similarity weight. To strengthen the word boundary information, we mix the
representations of the internal characters within a word. After that, we apply
a word-to-character alignment attention mechanism to emphasize important
characters by masking unimportant ones. Moreover, in order to reduce the error
propagation caused by word segmentation, we present an ensemble approach to
combine segmentation results given by different tokenizers. The experimental
results show that our approach achieves superior performance over the basic
pre-trained models BERT, BERT-wwm and ERNIE on different Chinese NLP tasks:
sentiment classification, sentence pair matching, natural language inference
and machine reading comprehension. We make further analysis to prove the
effectiveness of each component of our model.
- Abstract(参考訳): 中国のほとんどの事前訓練されたモデルは、下流作業の基本単位として文字を採用する。
しかし、これらのモデルは単語が持つ情報を無視するので、重要な意味論が失われる。
本稿では,単語構造を活用し,事前学習したモデルの文字表現に語彙意味を組み込む新しい手法を提案する。
具体的には、類似度重みに応じて単語の埋め込みを内部文字の埋め込みに投影する。
単語境界情報を強化するために,単語の内部文字の表現を混合する。
その後,重要でない文字をマスキングすることで重要文字を強調するために,単語間アライメントの注意機構を適用する。
さらに,単語のセグメンテーションによる誤りの伝播を低減するために,異なるトークンによるセグメンテーション結果を組み合わせたアンサンブル手法を提案する。
実験の結果,本手法は,感情分類,文対マッチング,自然言語推論,機械読解など,中国語のNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことがわかった。
モデルの各コンポーネントの有効性を証明するために、さらなる分析を行う。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Assessing Word Importance Using Models Trained for Semantic Tasks [0.0]
我々は、自然言語推論とパラフレーズ同定という、意味的課題を解決するために訓練されたモデルから単語の意義を導き出す。
我々は、いわゆるクロスタスク評価を用いて、それらの妥当性を評価する。
本手法は, 文章中の重要な単語を, 学習における単語のラベル付けを伴わずに識別することができる。
論文 参考訳(メタデータ) (2023-05-31T09:34:26Z) - Inducing Character-level Structure in Subword-based Language Models with
Type-level Interchange Intervention Training [36.19870483966741]
サブワードに基づく言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。
本手法は,各文字を因果モデルにおける型付き変数として扱い,そのような因果構造を学習する。
さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。
論文 参考訳(メタデータ) (2022-12-19T22:37:46Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。