Fugu-MT 論文翻訳(概要): Towards Robust Bangla Complex Named Entity Recognition

論文の概要: Towards Robust Bangla Complex Named Entity Recognition

arxiv url: http://arxiv.org/abs/2303.09306v1
Date: Thu, 16 Mar 2023 13:31:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 15:33:03.929782
Title: Towards Robust Bangla Complex Named Entity Recognition
Title（参考訳）: ロバストバングラ複合型エンティティ認識を目指して
Authors: HAZ Sameen Shahgir, Ramisa Alam, Md. Zarif Ul Alam
Abstract要約: 本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。データセットはトレーニング用15300文と検証用800文で構成されている。また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Named Entity Recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying named entities in text. But much work hasn't been done for complex named entity recognition in Bangla, despite being the seventh most spoken language globally. CNER is a more challenging task than traditional NER as it involves identifying and classifying complex and compound entities, which are not common in Bangla language. In this paper, we present the winning solution of Bangla Complex Named Entity Recognition Challenge - addressing the CNER task on BanglaCoNER dataset using two different approaches, namely Conditional Random Fields (CRF) and finetuning transformer based Deep Learning models such as BanglaBERT. The dataset consisted of 15300 sentences for training and 800 sentences for validation, in the .conll format. Exploratory Data Analysis (EDA) on the dataset revealed that the dataset had 7 different NER tags, with notable presence of English words, suggesting that the dataset is synthetic and likely a product of translation. We experimented with a variety of feature combinations including Part of Speech (POS) tags, word suffixes, Gazetteers, and cluster information from embeddings, while also finetuning the BanglaBERT (large) model for NER. We found that not all linguistic patterns are immediately apparent or even intuitive to humans, which is why Deep Learning based models has proved to be the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT (large) model achieves an F1 Score of 0.79 on the validation set. Overall, our study highlights the importance of Bangla Complex Named Entity Recognition, particularly in the context of synthetic datasets. Our findings also demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in Bangla language.
Abstract（参考訳）: 名前付きエンティティ認識(NER)は、名前付きエンティティをテキストで識別し分類する自然言語処理の基本的なタスクである。しかし、バングラデシュでは世界第7位の言語であるにもかかわらず、複雑な名前付きエンティティ認識のための多くの作業は行われていない。 CNERは従来のNERよりも難しいタスクであり、バングラ語では一般的ではない複雑で複雑なエンティティを識別し分類する。本稿では,BanglaCoNERデータセット上のCNERタスク,すなわち条件付きランダムフィールド(CRF)と,BanglaBERTのような微調整型トランスフォーマーに基づくディープラーニングモデルを用いて,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。データセットはトレーニング用15300文と検証用800文で構成された。 conll形式。データセット上の探索データ分析(EDA)では、データセットには7つの異なるNERタグがあり、英語の単語の存在が顕著であり、データセットが合成され、おそらく翻訳の産物であることを示している。 NERのBanglaBERT(大規模)モデルを微調整しながら,音声の一部(POS)タグ,単語接尾辞,ガゼッタ,埋め込みからのクラスタ情報など,さまざまな機能の組み合わせを実験した。 CNERタスクを含むNLPにおいて、ディープラーニングに基づくモデルがより効果的なモデルであることが証明された理由として、すべての言語パターンがすぐに人間に明らかまたは直感的であるわけではないことが判明した。我々の微調整BanglaBERT(大きな)モデルは、検証セット上でF1スコア0.79を達成する。本研究は,Bangla Complex Named Entity Recognitionの重要性,特に合成データセットの文脈において強調した。また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。

関連論文リスト

ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition [0.8025340896297104]
データセットは約17,405文、1リージョンあたり3,481文である。データは2つの公開データセットから収集され、様々なオンライン新聞や記事からウェブスクレイピングによって収集された。バングラ方言のNERシステムを強化し、地域言語理解を改善し、機械翻訳、情報検索、会話AIの応用をサポートするために利用することができる。
論文参考訳（メタデータ） (2025-02-16T16:59:10Z)
TriNER: A Series of Named Entity Recognition Models For Hindi, Bengali & Marathi [0.0]
本稿では,ヒンディー語,ベンガル語,マラティー語の3言語を対象とした多言語NERモデルの構築について述べる。我々は、カスタムトランスモデルを訓練し、いくつかの事前訓練されたモデルを微調整し、合計6つの実体群に対してF1スコア92.11を達成する。
論文参考訳（メタデータ） (2025-02-06T17:37:36Z)
"I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities [59.22329574700317]
名前付きエンティティ認識(NER)は、名前付きエンティティを音声から識別することを目的としている。しかし、新しい名前のエンティティが毎日現れ、Spoken NERデータに注釈をつけるのはコストがかかる。そこで本稿では,NEDに基づく音声NERデータ生成手法を提案する。
論文参考訳（メタデータ） (2024-12-26T07:43:18Z)
In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。 EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文参考訳（メタデータ） (2024-02-02T06:57:53Z)
On Significance of Subword tokenization for Low Resource and Efficient Named Entity Recognition: A case study in Marathi [1.6383036433216434]
低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。 BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
論文参考訳（メタデータ） (2023-12-03T06:53:53Z)
Named Entity Recognition via Machine Reading Comprehension: A Multi-Task Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文参考訳（メタデータ） (2023-09-20T03:15:05Z)
IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文参考訳（メタデータ） (2023-04-20T20:30:34Z)
Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。 DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文参考訳（メタデータ） (2023-02-16T15:50:02Z)
Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文参考訳（メタデータ） (2022-04-17T12:48:20Z)
Unified Named Entity Recognition as Word-Word Relation Classification [25.801945832005504]
我々は、統一NERを単語関係分類、すなわちW2NERとしてモデル化する新しい方法を提案する。このアーキテクチャは、エンティティワード間の隣り合う関係を効果的にモデル化することにより、統一NERのカーネルボトルネックを解決する。 W2NERスキームに基づいて,統一NERを単語ペアの2次元グリッドとしてモデル化するニューラルネットワークフレームワークを開発する。
論文参考訳（メタデータ） (2021-12-19T06:11:07Z)
An Open-Source Dataset and A Multi-Task Model for Malay Named Entity Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。 NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文参考訳（メタデータ） (2021-09-03T03:29:25Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Sentiment Classification in Bangla Textual Content: A Comparative Study [4.2394281761764]
本研究では,古典学習アルゴリズムと深層学習アルゴリズムの両方を用いて,公開されている感情ラベル付きデータセットと設計分類器について検討する。以上の結果から,バングラではこれまで検討されていないトランスフォーマーモデルが,他のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2020-11-19T21:06:28Z)
BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文参考訳（メタデータ） (2020-04-29T04:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。