論文の概要: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2109.07877v2
- Date: Wed, 17 Apr 2024 18:15:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 14:48:42.457334
- Title: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition
- Title(参考訳): MFE-NER:中国語名前付きエンティティ認識のための多機能融合埋め込み
- Authors: Jiatong Li, Kui Meng,
- Abstract要約: グリフと音声の特徴を融合した軽量なMFE-NERを提案する。
グリフ領域では、漢字をFive-Strokeコンポーネントに分解し、構造的特徴を表現する。
本研究では,音韻領域において,漢字間の音韻類似性を記述できる改良された音韻システムを提案する。
- 参考スコア(独自算出の注目度): 9.226556208419256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In Chinese Named Entity Recognition, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar as they share the same components or have similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. As a result, it always leads to unrecognizable or mislabeling errors in the NER task. In this paper, we propose a lightweight method, MFE-NER, which fuses glyph and phonetic features, to help pre-trained language models handle the character substitution problem in the NER task with limited extra cost. Basically, in the glyph domain, we disassemble Chinese characters into Five-Stroke components to represent structure features. In the phonetic domain, an improved phonetic system is proposed in our work, making it reasonable to describe phonetic similarity among Chinese characters. Experiments demonstrate that our method performs especially well in detecting character substitutions while slightly improving the overall performance of Chinese NER.
- Abstract(参考訳): 中国語の名前付きエンティティ認識では、文字置換は複雑な言語現象である。
いくつかの漢字は、同じ構成要素を共有したり、類似の発音を持つため、かなり似ている。
名前付きエンティティの文字を、同じ文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。
結果として、常にNERタスクの認識できない、または、ラベルのつかないエラーにつながる。
本稿では,音声とグリフを融合させる軽量なMFE-NERを提案する。
基本的に、グリフ領域では、漢字をFive-Strokeコンポーネントに分解して構造的特徴を表現する。
本研究では,音韻領域において,漢字間の音韻類似性を記述できる改良された音韻システムを提案する。
提案手法は,漢字置換の検出において特に有効でありながら,中国語NERの全体的な性能はわずかに向上していることを示す。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2021-07-12T13:39:06Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。