論文の概要: MarkBERT: Marking Word Boundaries Improves Chinese BERT
- arxiv url: http://arxiv.org/abs/2203.06378v1
- Date: Sat, 12 Mar 2022 08:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:52:07.697950
- Title: MarkBERT: Marking Word Boundaries Improves Chinese BERT
- Title(参考訳): MarkBERT:中国語のBERTを改良した単語境界のマーク
- Authors: Linyang Li, Yong Dai, Duyu Tang, Zhangyin Feng, Cong Zhou, Xipeng Qiu,
Zenglin Xu, Shuming Shi
- Abstract要約: MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
- 参考スコア(独自算出の注目度): 67.53732128091747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Chinese BERT model dubbed MarkBERT that uses word information.
Existing word-based BERT models regard words as basic units, however, due to
the vocabulary limit of BERT, they only cover high-frequency words and fall
back to character level when encountering out-of-vocabulary (OOV) words.
Different from existing works, MarkBERT keeps the vocabulary being Chinese
characters and inserts boundary markers between contiguous words. Such design
enables the model to handle any words in the same way, no matter they are OOV
words or not. Besides, our model has two additional benefits: first, it is
convenient to add word-level learning objectives over markers, which is
complementary to traditional character and sentence-level pre-training tasks;
second, it can easily incorporate richer semantics such as POS tags of words by
replacing generic markers with POS tag-specific markers. MarkBERT pushes the
state-of-the-art of Chinese named entity recognition from 95.4\% to 96.5\% on
the MSRA dataset and from 82.8\% to 84.2\% on the OntoNotes dataset,
respectively. Compared to previous word-based BERT models, MarkBERT achieves
better accuracy on text classification, keyword recognition, and semantic
similarity tasks.
- Abstract(参考訳): 単語情報を用いた中国語のBERTモデルであるMarkBERTを提案する。
既存の単語ベースのBERTモデルは、単語を基本単位とみなすが、BERTの語彙制限のため、高頻度の単語のみをカバーし、語彙外単語(OOV)に遭遇すると文字レベルに戻る。
既存の作品と異なり、MarkBERTは語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
このような設計により、モデルがOOVワードであるかどうかに関わらず、任意の単語を同じように扱うことができる。
第一に、従来の文字や文レベルの事前学習タスクを補完するマーカーの上に単語レベルの学習目標を追加するのが便利である。第二に、一般的なマーカーをposタグに置き換えることで、単語のposタグのようなよりリッチなセマンティクスを組み込むことができる。
MarkBERTは、中国のエンティティ認識の現状を、MSRAデータセットでは95.4\%から96.5\%、OntoNotesデータセットでは82.8\%から84.2\%にプッシュする。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
関連論文リスト
- Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter [15.336753753889035]
既存のメソッドは、浅いランダムなシーケンス層を介してレキシコン機能を融合するだけで、BERTの下位層に統合しない。
本稿では,中国語シーケンスラベリングのためのLexicon Enhanced BERT (LEBERT)を提案する。
既存の手法と比較して, bert の下位層において, 深いレキシコン知識の融合を実現する。
論文 参考訳(メタデータ) (2021-05-15T06:13:39Z) - Lex-BERT: Enhancing BERT based NER with lexicons [1.6884834576352221]
Lex-BERTは、名前付きエンティティ認識タスクのために、中国語のBERTに辞書情報を組み込むものです。
我々のモデルは新しいパラメータを導入せず、FLATよりも効率的です。
論文 参考訳(メタデータ) (2021-01-02T07:43:21Z) - Does Chinese BERT Encode Word Structure? [17.836131968160917]
文脈化された表現は、幅広いNLPタスクに対して大幅に改善された結果を与える。
BERTのような代表モデルによってキャプチャされた特徴を分析するために、多くの作業が費やされている。
本研究では,(1)単語情報がBERTによって取得されること,(2)単語レベルの特徴が主に中間表現層にあること,(3)下流タスクがBERTの単語特徴を異なる用途で利用すること,の2つを用いて中国語のBERTを調査する。
論文 参考訳(メタデータ) (2020-10-15T12:40:56Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。