論文の概要: Towards Robust Bangla Complex Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2303.09306v1
- Date: Thu, 16 Mar 2023 13:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:33:03.929782
- Title: Towards Robust Bangla Complex Named Entity Recognition
- Title(参考訳): ロバストバングラ複合型エンティティ認識を目指して
- Authors: HAZ Sameen Shahgir, Ramisa Alam, Md. Zarif Ul Alam
- Abstract要約: 本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成されている。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named Entity Recognition (NER) is a fundamental task in natural language
processing that involves identifying and classifying named entities in text.
But much work hasn't been done for complex named entity recognition in Bangla,
despite being the seventh most spoken language globally. CNER is a more
challenging task than traditional NER as it involves identifying and
classifying complex and compound entities, which are not common in Bangla
language. In this paper, we present the winning solution of Bangla Complex
Named Entity Recognition Challenge - addressing the CNER task on BanglaCoNER
dataset using two different approaches, namely Conditional Random Fields (CRF)
and finetuning transformer based Deep Learning models such as BanglaBERT.
The dataset consisted of 15300 sentences for training and 800 sentences for
validation, in the .conll format. Exploratory Data Analysis (EDA) on the
dataset revealed that the dataset had 7 different NER tags, with notable
presence of English words, suggesting that the dataset is synthetic and likely
a product of translation.
We experimented with a variety of feature combinations including Part of
Speech (POS) tags, word suffixes, Gazetteers, and cluster information from
embeddings, while also finetuning the BanglaBERT (large) model for NER. We
found that not all linguistic patterns are immediately apparent or even
intuitive to humans, which is why Deep Learning based models has proved to be
the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT
(large) model achieves an F1 Score of 0.79 on the validation set. Overall, our
study highlights the importance of Bangla Complex Named Entity Recognition,
particularly in the context of synthetic datasets. Our findings also
demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in
Bangla language.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、名前付きエンティティをテキストで識別し分類する自然言語処理の基本的なタスクである。
しかし、バングラデシュでは世界第7位の言語であるにもかかわらず、複雑な名前付きエンティティ認識のための多くの作業は行われていない。
CNERは従来のNERよりも難しいタスクであり、バングラ語では一般的ではない複雑で複雑なエンティティを識別し分類する。
本稿では,BanglaCoNERデータセット上のCNERタスク,すなわち条件付きランダムフィールド(CRF)と,BanglaBERTのような微調整型トランスフォーマーに基づくディープラーニングモデルを用いて,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成された。
conll形式。
データセット上の探索データ分析(EDA)では、データセットには7つの異なるNERタグがあり、英語の単語の存在が顕著であり、データセットが合成され、おそらく翻訳の産物であることを示している。
NERのBanglaBERT(大規模)モデルを微調整しながら,音声の一部(POS)タグ,単語接尾辞,ガゼッタ,埋め込みからのクラスタ情報など,さまざまな機能の組み合わせを実験した。
CNERタスクを含むNLPにおいて、ディープラーニングに基づくモデルがより効果的なモデルであることが証明された理由として、すべての言語パターンがすぐに人間に明らかまたは直感的であるわけではないことが判明した。
我々の微調整BanglaBERT(大きな)モデルは、検証セット上でF1スコア0.79を達成する。
本研究は,Bangla Complex Named Entity Recognitionの重要性,特に合成データセットの文脈において強調した。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
関連論文リスト
- ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - WCL-BBCD: A Contrastive Learning and Knowledge Graph Approach to Named
Entity Recognition [15.446770390648874]
WCL-BBCD (Word Contrastive Learning with BERT-BiLSTM-CRF-DBpedia)を提案する。
モデルはまずテキスト中の文ペアを訓練し、コサイン類似性により文ペア内の単語間の類似度を計算し、その類似性を通じて名前付きエンティティ認識タスクに使用されるBERTモデルを微調整する。
最後に、単語短縮による認識を緩和するため、認識結果を知識グラフなどの事前知識と組み合わせて補正する。
論文 参考訳(メタデータ) (2022-03-14T08:29:58Z) - Unified Named Entity Recognition as Word-Word Relation Classification [25.801945832005504]
我々は、統一NERを単語関係分類、すなわちW2NERとしてモデル化する新しい方法を提案する。
このアーキテクチャは、エンティティワード間の隣り合う関係を効果的にモデル化することにより、統一NERのカーネルボトルネックを解決する。
W2NERスキームに基づいて,統一NERを単語ペアの2次元グリッドとしてモデル化するニューラルネットワークフレームワークを開発する。
論文 参考訳(メタデータ) (2021-12-19T06:11:07Z) - KARL-Trans-NER: Knowledge Aware Representation Learning for Named Entity
Recognition using Transformers [0.0]
名前付きエンティティ認識(NER)のための知識認識表現学習(KARL)ネットワークを提案する。
KARLは、ファクトトリプレットとして表される大きな知識ベースを利用し、それらをコンテキストに変換し、内部に存在する必須情報を抽出して、特徴拡張のためのコンテキスト化三重項表現を生成するトランスフォーマーに基づいている。
実験結果から,KARL を用いた拡張は NER システムの性能を大幅に向上させ,既存の 3 つの NER データセット(CoNLL 2003,CoNLL++,OntoNotes v5 など)の文献上のアプローチよりもはるかに優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-11-30T14:29:33Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z) - Sentiment Classification in Bangla Textual Content: A Comparative Study [4.2394281761764]
本研究では,古典学習アルゴリズムと深層学習アルゴリズムの両方を用いて,公開されている感情ラベル付きデータセットと設計分類器について検討する。
以上の結果から,バングラではこれまで検討されていないトランスフォーマーモデルが,他のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-11-19T21:06:28Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。