Fugu-MT 論文翻訳(概要): MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition

論文の概要: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition

arxiv url: http://arxiv.org/abs/2109.07877v1
Date: Thu, 16 Sep 2021 11:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-17 14:03:10.001190
Title: MFE-NER: Multi-feature Fusion Embedding for Chinese Named Entity Recognition
Title（参考訳）: mfe-ner:中国のエンティティ認識のための多機能融合埋め込み
Authors: Jiatong Li and Kui Meng
Abstract要約: 中国語名前付きエンティティ認識(MFE-NER)のための多機能融合埋め込み法を提案する。 MFEはセマンティック、グリフ、音声機能を融合する。実験により,中国NERの全体的な性能が向上することが確認された。
参考スコア（独自算出の注目度）: 2.7514191327409714
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pre-trained language models lead Named Entity Recognition (NER) into a new era, while some more knowledge is needed to improve their performance in specific problems. In Chinese NER, character substitution is a complicated linguistic phenomenon. Some Chinese characters are quite similar for sharing the same components or having similar pronunciations. People replace characters in a named entity with similar characters to generate a new collocation but referring to the same object. It becomes even more common in the Internet age and is often used to avoid Internet censorship or just for fun. Such character substitution is not friendly to those pre-trained language models because the new collocations are occasional. As a result, it always leads to unrecognizable or recognition errors in the NER task. In this paper, we propose a new method, Multi-Feature Fusion Embedding for Chinese Named Entity Recognition (MFE-NER), to strengthen the language pattern of Chinese and handle the character substitution problem in Chinese Named Entity Recognition. MFE fuses semantic, glyph, and phonetic features together. In the glyph domain, we disassemble Chinese characters into components to denote structure features so that characters with similar structures can have close embedding space representation. Meanwhile, an improved phonetic system is also proposed in our work, making it reasonable to calculate phonetic similarity among Chinese characters. Experiments demonstrate that our method improves the overall performance of Chinese NER and especially performs well in informal language environments.
Abstract（参考訳）: 事前学習された言語モデルは、名前付きエンティティ認識(ner)を新しい時代へと導く一方で、特定の問題におけるパフォーマンスを改善するために、さらなる知識が必要になる。中国語のNERでは、文字置換は複雑な言語現象である。いくつかの漢字は、同じ成分を共有したり、類似の発音を持つのによく似ている。名前付きエンティティの文字を類似の文字で置き換えて、新しいコロケーションを生成するが、同じオブジェクトを参照する。インターネット時代にはさらに一般的になり、インターネット検閲を避けたり、単に楽しんだりするためによく使われる。このような文字置換は、新しいコロケーションが時々存在するため、事前訓練された言語モデルと親和性がない。結果として、NERタスクでは認識できない、あるいは認識できないエラーにつながる。本稿では,中国語固有体認識のための多機能融合埋め込み法(mfe-ner)を提案し,中国語の言語パターンを強化し,中国語固有体認識における文字置換問題に対処する。 MFEはセマンティック、グリフ、音声機能を融合する。グリフ領域では、構造特徴を表すために漢字を構成要素に分解し、類似した構造を持つ文字が密接な埋め込み空間表現を持つようにする。また,漢字間の音韻類似度を合理的に計算できるように,音声システムの改良も提案されている。実験により,中国語nerの全体的な性能が向上し,特に非公式言語環境での性能が向上することを示す。

関連論文リスト

Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
Skeleton and Font Generation Network for Zero-shot Chinese Character Generation [53.08596064763731]
そこで我々は,より堅牢な漢字フォント生成を実現するために,新しいSkeleton and Font Generation Network (SFGN)を提案する。ミススペル文字について実験を行い、その大部分は共通文字とわずかに異なる。提案手法は、生成した画像の有効性を視覚的に実証し、現在最先端のフォント生成方法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-14T12:15:49Z)
Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT [81.99600765234285]
ポリフォニック文字の発音を予測するためのエンドツーエンドフレームワークを提案する。提案手法は,Transformers(BERT)モデルとニューラルネットワーク(NN)に基づく分類器から,事前訓練された双方向エンコーダ表現からなる。
論文参考訳（メタデータ） (2025-01-02T06:51:52Z)
Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文参考訳（メタデータ） (2024-07-26T07:30:41Z)
Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文参考訳（メタデータ） (2023-09-03T05:33:16Z)
Exploiting Word Semantics to Enrich Character Representations of Chinese Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2022-07-13T02:28:08Z)
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文参考訳（メタデータ） (2021-07-12T13:39:06Z)
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文参考訳（メタデータ） (2021-06-30T13:06:00Z)
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。 SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文参考訳（メタデータ） (2021-06-01T11:20:02Z)
Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。 ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。 SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文参考訳（メタデータ） (2021-05-26T02:38:11Z)
Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文参考訳（メタデータ） (2020-12-29T14:28:07Z)
2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文参考訳（メタデータ） (2020-05-07T10:53:05Z)
Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文参考訳（メタデータ） (2020-04-09T14:37:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。