論文の概要: ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer
- arxiv url: http://arxiv.org/abs/2207.00785v1
- Date: Sat, 2 Jul 2022 09:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:05:00.518308
- Title: ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer
- Title(参考訳): ANEC: エンティティコーパスとトランスフォーマーベースの認識器
- Authors: Ebrahim Chekol Jibril and A. C\"uneyd Tant\u{g}
- Abstract要約: 本稿では,条件付きランダムフィールド層を用いた双方向長短期記憶に基づくAmharicというエンティティ認識システムを提案する。
我々の名前付きエンティティ認識システムは93%のF_1スコアを達成しており、これはAmharicの名前付きエンティティ認識の新しい最先端結果である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named Entity Recognition is an information extraction task that serves as a
preprocessing step for other natural language processing tasks, such as machine
translation, information retrieval, and question answering. Named entity
recognition enables the identification of proper names as well as temporal and
numeric expressions in an open domain text. For Semitic languages such as
Arabic, Amharic, and Hebrew, the named entity recognition task is more
challenging due to the heavily inflected structure of these languages. In this
paper, we present an Amharic named entity recognition system based on
bidirectional long short-term memory with a conditional random fields layer. We
annotate a new Amharic named entity recognition dataset (8,070 sentences, which
has 182,691 tokens) and apply Synthetic Minority Over-sampling Technique to our
dataset to mitigate the imbalanced classification problem. Our named entity
recognition system achieves an F_1 score of 93%, which is the new
state-of-the-art result for Amharic named entity recognition.
- Abstract(参考訳): 名前付きエンティティ認識は、機械翻訳、情報検索、質問応答など他の自然言語処理タスクの前処理ステップとして機能する情報抽出タスクである。
名前付きエンティティ認識は、オープンドメインのテキストで適切な名前と時間的および数値的な表現の識別を可能にする。
アラビア語、アムハラ語、ヘブライ語のようなセム語では、これらの言語が強烈な構造を持つため、名前のついた実体認識タスクはより困難である。
本稿では,条件付きランダムフィールド層を有する双方向長短期記憶に基づくAmharicという名前のエンティティ認識システムを提案する。
我々はAmharicという新しいエンティティ認識データセット(182,691トークンを持つ8,070文)に注釈を付け、Synthetic Minority Over-Sampling Techniqueをデータセットに適用し、不均衡な分類問題を緩和する。
名前付きエンティティ認識システムは,amharic名前付きエンティティ認識の新しい最先端結果であるf_1スコアを93%達成する。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - WCL-BBCD: A Contrastive Learning and Knowledge Graph Approach to Named
Entity Recognition [15.446770390648874]
WCL-BBCD (Word Contrastive Learning with BERT-BiLSTM-CRF-DBpedia)を提案する。
モデルはまずテキスト中の文ペアを訓練し、コサイン類似性により文ペア内の単語間の類似度を計算し、その類似性を通じて名前付きエンティティ認識タスクに使用されるBERTモデルを微調整する。
最後に、単語短縮による認識を緩和するため、認識結果を知識グラフなどの事前知識と組み合わせて補正する。
論文 参考訳(メタデータ) (2022-03-14T08:29:58Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition [51.88382864759973]
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2021-10-12T11:06:03Z) - Locate and Label: A Two-stage Identifier for Nested Named Entity
Recognition [9.809157050048375]
名前付きエンティティ認識のための2段階エンティティ識別子を提案する。
まず、シードスパンのフィルタリングと境界回帰によってスパン提案を生成し、エンティティの特定を行い、それに対応するカテゴリで境界調整スパン提案をラベル付けする。
本手法は,訓練中のエンティティの境界情報と部分マッチングスパンを効果的に活用する。
論文 参考訳(メタデータ) (2021-05-14T12:52:34Z) - Bootstrapping Named Entity Recognition in E-Commerce with Positive
Unlabeled Learning [13.790883865748004]
本稿では、ドメイン固有の言語機能を統合して、シード辞書を迅速かつ効率的に拡張するブートストラップ付き正非ラベル学習アルゴリズムを提案する。
このモデルは、製品記述の新しいデータセットで平均72.02%のF1スコアを達成し、ベースラインのBiLSTM分類器よりも3.63%改善した。
論文 参考訳(メタデータ) (2020-05-22T09:35:30Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z) - Beheshti-NER: Persian Named Entity Recognition Using BERT [0.0]
本稿では、ペルシャ語で名前付きエンティティ認識のモデルを作成するために、事前訓練された深層双方向ネットワークBERTを使用する。
その結果,83.5 と 88.4 f1 の CONLL スコアをフレーズレベルと単語レベルで評価した。
論文 参考訳(メタデータ) (2020-03-19T15:55:21Z) - Integrating Boundary Assembling into a DNN Framework for Named Entity
Recognition in Chinese Social Media Text [3.7239227834407735]
中国語の単語境界もまたエンティティ境界であるため、中国語のテキストに対する名前付きエンティティ認識は単語境界検出の恩恵を受けることができる。
本稿では,最先端の深層ニューラルネットワークモデルと境界組立手法を統合し,その更新された単語境界情報を名前付きエンティティ認識のための条件付きランダムフィールドモデルに組み込む。
本手法は,従来の最先端結果よりも2%の絶対的な改善を示した。
論文 参考訳(メタデータ) (2020-02-27T04:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。