論文の概要: Towards Robust Bangla Complex Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2303.09306v1
- Date: Thu, 16 Mar 2023 13:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:33:03.929782
- Title: Towards Robust Bangla Complex Named Entity Recognition
- Title(参考訳): ロバストバングラ複合型エンティティ認識を目指して
- Authors: HAZ Sameen Shahgir, Ramisa Alam, Md. Zarif Ul Alam
- Abstract要約: 本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成されている。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named Entity Recognition (NER) is a fundamental task in natural language
processing that involves identifying and classifying named entities in text.
But much work hasn't been done for complex named entity recognition in Bangla,
despite being the seventh most spoken language globally. CNER is a more
challenging task than traditional NER as it involves identifying and
classifying complex and compound entities, which are not common in Bangla
language. In this paper, we present the winning solution of Bangla Complex
Named Entity Recognition Challenge - addressing the CNER task on BanglaCoNER
dataset using two different approaches, namely Conditional Random Fields (CRF)
and finetuning transformer based Deep Learning models such as BanglaBERT.
The dataset consisted of 15300 sentences for training and 800 sentences for
validation, in the .conll format. Exploratory Data Analysis (EDA) on the
dataset revealed that the dataset had 7 different NER tags, with notable
presence of English words, suggesting that the dataset is synthetic and likely
a product of translation.
We experimented with a variety of feature combinations including Part of
Speech (POS) tags, word suffixes, Gazetteers, and cluster information from
embeddings, while also finetuning the BanglaBERT (large) model for NER. We
found that not all linguistic patterns are immediately apparent or even
intuitive to humans, which is why Deep Learning based models has proved to be
the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT
(large) model achieves an F1 Score of 0.79 on the validation set. Overall, our
study highlights the importance of Bangla Complex Named Entity Recognition,
particularly in the context of synthetic datasets. Our findings also
demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in
Bangla language.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、名前付きエンティティをテキストで識別し分類する自然言語処理の基本的なタスクである。
しかし、バングラデシュでは世界第7位の言語であるにもかかわらず、複雑な名前付きエンティティ認識のための多くの作業は行われていない。
CNERは従来のNERよりも難しいタスクであり、バングラ語では一般的ではない複雑で複雑なエンティティを識別し分類する。
本稿では,BanglaCoNERデータセット上のCNERタスク,すなわち条件付きランダムフィールド(CRF)と,BanglaBERTのような微調整型トランスフォーマーに基づくディープラーニングモデルを用いて,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成された。
conll形式。
データセット上の探索データ分析(EDA)では、データセットには7つの異なるNERタグがあり、英語の単語の存在が顕著であり、データセットが合成され、おそらく翻訳の産物であることを示している。
NERのBanglaBERT(大規模)モデルを微調整しながら,音声の一部(POS)タグ,単語接尾辞,ガゼッタ,埋め込みからのクラスタ情報など,さまざまな機能の組み合わせを実験した。
CNERタスクを含むNLPにおいて、ディープラーニングに基づくモデルがより効果的なモデルであることが証明された理由として、すべての言語パターンがすぐに人間に明らかまたは直感的であるわけではないことが判明した。
我々の微調整BanglaBERT(大きな)モデルは、検証セット上でF1スコア0.79を達成する。
本研究は,Bangla Complex Named Entity Recognitionの重要性,特に合成データセットの文脈において強調した。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
関連論文リスト
- In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi [1.6383036433216434]
低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
論文 参考訳(メタデータ) (2023-12-03T06:53:53Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - Unified Named Entity Recognition as Word-Word Relation Classification [25.801945832005504]
我々は、統一NERを単語関係分類、すなわちW2NERとしてモデル化する新しい方法を提案する。
このアーキテクチャは、エンティティワード間の隣り合う関係を効果的にモデル化することにより、統一NERのカーネルボトルネックを解決する。
W2NERスキームに基づいて,統一NERを単語ペアの2次元グリッドとしてモデル化するニューラルネットワークフレームワークを開発する。
論文 参考訳(メタデータ) (2021-12-19T06:11:07Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Sentiment Classification in Bangla Textual Content: A Comparative Study [4.2394281761764]
本研究では,古典学習アルゴリズムと深層学習アルゴリズムの両方を用いて,公開されている感情ラベル付きデータセットと設計分類器について検討する。
以上の結果から,バングラではこれまで検討されていないトランスフォーマーモデルが,他のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-11-19T21:06:28Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。