論文の概要: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2109.07877v1
- Date: Thu, 16 Sep 2021 11:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:03:10.001190
- Title: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity
Recognition
- Title(参考訳): mfe-ner:中国のエンティティ認識のための多機能融合埋め込み
- Authors: Jiatong Li and Kui Meng
- Abstract要約: 中国語名前付きエンティティ認識(MFE-NER)のための多機能融合埋め込み法を提案する。
MFEはセマンティック、グリフ、音声機能を融合する。
実験により,中国NERの全体的な性能が向上することが確認された。
- 参考スコア(独自算出の注目度): 2.7514191327409714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models lead Named Entity Recognition (NER) into a new
era, while some more knowledge is needed to improve their performance in
specific problems. In Chinese NER, character substitution is a complicated
linguistic phenomenon. Some Chinese characters are quite similar for sharing
the same components or having similar pronunciations. People replace characters
in a named entity with similar characters to generate a new collocation but
referring to the same object. It becomes even more common in the Internet age
and is often used to avoid Internet censorship or just for fun. Such character
substitution is not friendly to those pre-trained language models because the
new collocations are occasional. As a result, it always leads to unrecognizable
or recognition errors in the NER task. In this paper, we propose a new method,
Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER),
to strengthen the language pattern of Chinese and handle the character
substitution problem in Chinese Named Entity Recognition. MFE fuses semantic,
glyph, and phonetic features together. In the glyph domain, we disassemble
Chinese characters into components to denote structure features so that
characters with similar structures can have close embedding space
representation. Meanwhile, an improved phonetic system is also proposed in our
work, making it reasonable to calculate phonetic similarity among Chinese
characters. Experiments demonstrate that our method improves the overall
performance of Chinese NER and especially performs well in informal language
environments.
- Abstract(参考訳): 事前学習された言語モデルは、名前付きエンティティ認識(ner)を新しい時代へと導く一方で、特定の問題におけるパフォーマンスを改善するために、さらなる知識が必要になる。
中国語のNERでは、文字置換は複雑な言語現象である。
いくつかの漢字は、同じ成分を共有したり、類似の発音を持つのによく似ている。
名前付きエンティティの文字を類似の文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。
インターネット時代にはさらに一般的になり、インターネット検閲を避けたり、単に楽しんだりするためによく使われる。
このような文字置換は、新しいコロケーションが時々存在するため、事前訓練された言語モデルと親和性がない。
結果として、NERタスクでは認識できない、あるいは認識できないエラーにつながる。
本稿では,中国語固有体認識のための多機能融合埋め込み法(mfe-ner)を提案し,中国語の言語パターンを強化し,中国語固有体認識における文字置換問題に対処する。
MFEはセマンティック、グリフ、音声機能を融合する。
グリフ領域では、構造特徴を表すために漢字を構成要素に分解し、類似した構造を持つ文字が密接な埋め込み空間表現を持つようにする。
また,漢字間の音韻類似度を合理的に計算できるように,音声システムの改良も提案されている。
実験により,中国語nerの全体的な性能が向上し,特に非公式言語環境での性能が向上することを示す。
関連論文リスト
- Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - A Chinese Spelling Check Framework Based on Reverse Contrastive Learning [4.60495447017298]
本稿では,中国語のスペルチェックのための新しいフレームワークを提案する。
具体的には,モデルに類似事例間の合意を最小化するよう強制する,逆対比学習戦略を提案する。
実験結果から,本フレームワークはモデル非依存であり,既存の中国語スペルチェックモデルと組み合わせることで,最先端の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-25T08:05:38Z) - MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2021-07-12T13:39:06Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Global-local Enhancement Network for NMFs-aware Sign Language
Recognition [135.30357113518127]
グローバルローカル・エンハンスメント・ネットワーク(GLE-Net)という,シンプルで効果的なアーキテクチャを提案する。
2つのストリームのうち、1つはグローバルなコンテキスト関係をキャプチャし、もう1つは識別可能なきめ細かなキューをキャプチャする。
日常の単語の総語彙サイズが1,067である中国語手話データセットを,手動で認識する最初の中国語手話データセットを紹介した。
論文 参考訳(メタデータ) (2020-08-24T13:28:55Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。