論文の概要: MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition
- arxiv url: http://arxiv.org/abs/2107.05418v1
- Date: Mon, 12 Jul 2021 13:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:20:18.988602
- Title: MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition
- Title(参考訳): mect: 中国語名付きエンティティ認識のためのマルチメタデータ埋め込みベースのクロストランスフォーマ
- Authors: Shuang Wu, Xiaoning Song and Zhenhua Feng
- Abstract要約: 本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
- 参考スコア(独自算出の注目度): 21.190288516462704
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, word enhancement has become very popular for Chinese Named Entity
Recognition (NER), reducing segmentation errors and increasing the semantic and
boundary information of Chinese words. However, these methods tend to ignore
the information of the Chinese character structure after integrating the
lexical information. Chinese characters have evolved from pictographs since
ancient times, and their structure often reflects more information about the
characters. This paper presents a novel Multi-metadata Embedding based
Cross-Transformer (MECT) to improve the performance of Chinese NER by fusing
the structural information of Chinese characters. Specifically, we use
multi-metadata embedding in a two-stream Transformer to integrate Chinese
character features with the radical-level embedding. With the structural
characteristics of Chinese characters, MECT can better capture the semantic
information of Chinese characters for NER. The experimental results obtained on
several well-known benchmarking datasets demonstrate the merits and superiority
of the proposed MECT method.\footnote{The source code of the proposed method is
publicly available at https://github.com/CoderMusou/MECT4CNER.
- Abstract(参考訳): 近年,中国語の名前付きエンティティ認識(NER)では単語強調が盛んになり,セグメンテーションエラーを低減し,中国語のセグメンテーション情報や境界情報を増大させている。
しかし,これらの手法は語彙情報の統合後,漢字構造に関する情報を無視する傾向にある。
漢字は古来からピクトグラフから進化しており、その構造はしばしば文字に関する情報を反映している。
本稿では,漢字の構造情報を融合させることで中国語NERの性能を向上させるために,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、マルチメタデータ組込みを2ストリームトランスフォーマーに使用して、漢字の特徴とラジカルレベルの組込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
いくつかの有名なベンチマークデータセットで得られた実験結果は、mectメソッドのメリットと優位性を示している。
関連論文リスト
- Efficient and Scalable Chinese Vector Font Generation via Component Composition [13.499566877003408]
コンポーネント合成による中国初の効率的かつスケーラブルなベクトルフォント生成手法を提案する。
空間変換器ネットワーク(STN)とフォント特性に合わせた多重損失に基づくフレームワークを提案する。
実験により,本手法は最先端のベクトルフォント生成手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2024-04-10T06:39:18Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition [9.226556208419256]
グリフと音声の特徴を融合した軽量なMFE-NERを提案する。
グリフ領域では、漢字をFive-Strokeコンポーネントに分解し、構造的特徴を表現する。
本研究では,音韻領域において,漢字間の音韻類似性を記述できる改良された音韻システムを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:16:43Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。