論文の概要: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2109.07877v1
- Date: Thu, 16 Sep 2021 11:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:03:10.001190
- Title: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity
Recognition
- Title(参考訳): mfe-ner:中国のエンティティ認識のための多機能融合埋め込み
- Authors: Jiatong Li and Kui Meng
- Abstract要約: 中国語名前付きエンティティ認識(MFE-NER)のための多機能融合埋め込み法を提案する。
MFEはセマンティック、グリフ、音声機能を融合する。
実験により,中国NERの全体的な性能が向上することが確認された。
- 参考スコア(独自算出の注目度): 2.7514191327409714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models lead Named Entity Recognition (NER) into a new
era, while some more knowledge is needed to improve their performance in
specific problems. In Chinese NER, character substitution is a complicated
linguistic phenomenon. Some Chinese characters are quite similar for sharing
the same components or having similar pronunciations. People replace characters
in a named entity with similar characters to generate a new collocation but
referring to the same object. It becomes even more common in the Internet age
and is often used to avoid Internet censorship or just for fun. Such character
substitution is not friendly to those pre-trained language models because the
new collocations are occasional. As a result, it always leads to unrecognizable
or recognition errors in the NER task. In this paper, we propose a new method,
Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER),
to strengthen the language pattern of Chinese and handle the character
substitution problem in Chinese Named Entity Recognition. MFE fuses semantic,
glyph, and phonetic features together. In the glyph domain, we disassemble
Chinese characters into components to denote structure features so that
characters with similar structures can have close embedding space
representation. Meanwhile, an improved phonetic system is also proposed in our
work, making it reasonable to calculate phonetic similarity among Chinese
characters. Experiments demonstrate that our method improves the overall
performance of Chinese NER and especially performs well in informal language
environments.
- Abstract(参考訳): 事前学習された言語モデルは、名前付きエンティティ認識(ner)を新しい時代へと導く一方で、特定の問題におけるパフォーマンスを改善するために、さらなる知識が必要になる。
中国語のNERでは、文字置換は複雑な言語現象である。
いくつかの漢字は、同じ成分を共有したり、類似の発音を持つのによく似ている。
名前付きエンティティの文字を類似の文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。
インターネット時代にはさらに一般的になり、インターネット検閲を避けたり、単に楽しんだりするためによく使われる。
このような文字置換は、新しいコロケーションが時々存在するため、事前訓練された言語モデルと親和性がない。
結果として、NERタスクでは認識できない、あるいは認識できないエラーにつながる。
本稿では,中国語固有体認識のための多機能融合埋め込み法(mfe-ner)を提案し,中国語の言語パターンを強化し,中国語固有体認識における文字置換問題に対処する。
MFEはセマンティック、グリフ、音声機能を融合する。
グリフ領域では、構造特徴を表すために漢字を構成要素に分解し、類似した構造を持つ文字が密接な埋め込み空間表現を持つようにする。
また,漢字間の音韻類似度を合理的に計算できるように,音声システムの改良も提案されている。
実験により,中国語nerの全体的な性能が向上し,特に非公式言語環境での性能が向上することを示す。
関連論文リスト
- Skeleton and Font Generation Network for Zero-shot Chinese Character Generation [53.08596064763731]
そこで我々は,より堅牢な漢字フォント生成を実現するために,新しいSkeleton and Font Generation Network (SFGN)を提案する。
ミススペル文字について実験を行い、その大部分は共通文字とわずかに異なる。
提案手法は、生成した画像の有効性を視覚的に実証し、現在最先端のフォント生成方法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-14T12:15:49Z) - Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT [81.99600765234285]
ポリフォニック文字の発音を予測するためのエンドツーエンドフレームワークを提案する。
提案手法は,Transformers(BERT)モデルとニューラルネットワーク(NN)に基づく分類器から,事前訓練された双方向エンコーダ表現からなる。
論文 参考訳(メタデータ) (2025-01-02T06:51:52Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2021-07-12T13:39:06Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。