論文の概要: Incorporating Uncertain Segmentation Information into Chinese NER for
Social Media Text
- arxiv url: http://arxiv.org/abs/2004.06384v2
- Date: Mon, 15 Jun 2020 09:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 08:46:05.423579
- Title: Incorporating Uncertain Segmentation Information into Chinese NER for
Social Media Text
- Title(参考訳): ソーシャルメディアテキスト用中国語ナーへの不確定なセグメンテーション情報の導入
- Authors: Shengbin Jia, Ling Ding, Xiaojun Chen, Shijia E, Yang Xiang
- Abstract要約: セグメンテーションエラーの伝播は、中国のエンティティ認識システムにとっての課題である。
中国のソーシャルメディアテキストからエンティティを識別するモデル(UIcwsNN)を提案する。
- 参考スコア(独自算出の注目度): 18.455836845989523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese word segmentation is necessary to provide word-level information for
Chinese named entity recognition (NER) systems. However, segmentation error
propagation is a challenge for Chinese NER while processing colloquial data
like social media text. In this paper, we propose a model (UIcwsNN) that
specializes in identifying entities from Chinese social media text, especially
by leveraging ambiguous information of word segmentation. Such uncertain
information contains all the potential segmentation states of a sentence that
provides a channel for the model to infer deep word-level characteristics. We
propose a trilogy (i.e., candidate position embedding -> position selective
attention -> adaptive word convolution) to encode uncertain word segmentation
information and acquire appropriate word-level representation. Experiments
results on the social media corpus show that our model alleviates the
segmentation error cascading trouble effectively, and achieves a significant
performance improvement of more than 2% over previous state-of-the-art methods.
- Abstract(参考訳): 中国語の単語セグメンテーションは、中国語の名前付きエンティティ認識(NER)システムに単語レベルの情報を提供するために必要である。
しかし, 分割誤りの伝播は, ソーシャルメディアテキストなどの口語データを処理している中国のNERにとって困難である。
本稿では、特に単語分割のあいまいな情報を利用して、中国のソーシャルメディアテキストからのエンティティの識別を専門とするモデル(uicwsnn)を提案する。
このような不確実な情報は、深い単語レベルの特徴を推測するためのモデルのためのチャネルを提供する文の潜在的なセグメンテーション状態をすべて含んでいる。
本稿では,不確定な単語分割情報を符号化し,適切な単語レベル表現を得るための三部作法(候補位置埋め込み->位置選択注意->適応語畳み込み)を提案する。
ソーシャルメディアコーパスにおける実験結果から,セグメント化エラーカスケード問題を効果的に軽減し,従来の最先端手法に比べて2%以上の大幅な性能向上を実現した。
関連論文リスト
- Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Chinese Word Segmentation with Heterogeneous Graph Neural Network [8.569804490994219]
我々はHGNSegという名前の中国語単語分割を改善するためのフレームワークを提案する。
事前訓練された言語モデルと異種グラフニューラルネットワークでマルチレベル外部情報を利用する。
ドメイン横断シナリオでは,OoV(out-of-vocabulary)問題を緩和する強力な能力も示している。
論文 参考訳(メタデータ) (2022-01-22T06:25:56Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Exploiting Global Contextual Information for Document-level Named Entity
Recognition [46.99922251839363]
我々は、GCDoc(Global Context enhanced Document-level NER)と呼ばれるモデルを提案する。
単語レベルでは、文書グラフは単語間のより広範な依存関係をモデル化するために構築される。
文レベルでは、単一文を超えてより広い文脈を適切にモデル化するために、横断文モジュールを用いる。
我々のモデルは、CoNLL 2003データセットで92.22(BERTで93.40)、Ontonotes 5.0データセットで88.32(BERTで90.49)のスコアに達した。
論文 参考訳(メタデータ) (2021-06-02T01:52:07Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - Integrating Boundary Assembling into a DNN Framework for Named Entity
Recognition in Chinese Social Media Text [3.7239227834407735]
中国語の単語境界もまたエンティティ境界であるため、中国語のテキストに対する名前付きエンティティ認識は単語境界検出の恩恵を受けることができる。
本稿では,最先端の深層ニューラルネットワークモデルと境界組立手法を統合し,その更新された単語境界情報を名前付きエンティティ認識のための条件付きランダムフィールドモデルに組み込む。
本手法は,従来の最先端結果よりも2%の絶対的な改善を示した。
論文 参考訳(メタデータ) (2020-02-27T04:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。