論文の概要: TriNER: A Series of Named Entity Recognition Models For Hindi, Bengali & Marathi
- arxiv url: http://arxiv.org/abs/2502.04245v1
- Date: Thu, 06 Feb 2025 17:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:33.321689
- Title: TriNER: A Series of Named Entity Recognition Models For Hindi, Bengali & Marathi
- Title(参考訳): TriNER:Hindi、Bengali、Marathiのエンティティ認識モデル
- Authors: Mohammed Amaan Dhamaskar, Rasika Ransing,
- Abstract要約: 本稿では,ヒンディー語,ベンガル語,マラティー語の3言語を対象とした多言語NERモデルの構築について述べる。
我々は、カスタムトランスモデルを訓練し、いくつかの事前訓練されたモデルを微調整し、合計6つの実体群に対してF1スコア92.11を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: India's rich cultural and linguistic diversity poses various challenges in the domain of Natural Language Processing (NLP), particularly in Named Entity Recognition (NER). NER is a NLP task that aims to identify and classify tokens into different entity groups like Person, Location, Organization, Number, etc. This makes NER very useful for downstream tasks like context-aware anonymization. This paper details our work to build a multilingual NER model for the three most spoken languages in India - Hindi, Bengali & Marathi. We train a custom transformer model and fine tune a few pretrained models, achieving an F1 Score of 92.11 for a total of 6 entity groups. Through this paper, we aim to introduce a single model to perform NER and significantly reduce the inconsistencies in entity groups and tag names, across the three languages.
- Abstract(参考訳): インドの豊かな文化的・言語的な多様性は、自然言語処理(NLP)分野、特に名前付きエンティティ認識(NER)分野において様々な課題を提起している。
NERは、トークンをPerson、Location、Organization、Numberなどの異なるエンティティグループに識別し分類することを目的としたNLPタスクである。
これにより、NERはコンテキスト認識匿名化のような下流タスクに非常に役立ちます。
本稿では,ヒンディー語,ベンガル語,マラティー語の3言語を対象とした多言語NERモデルの構築について述べる。
我々は、カスタムトランスモデルを訓練し、いくつかの事前訓練されたモデルを微調整し、合計6つの実体群に対してF1スコア92.11を達成する。
本稿では,NERを実行する単一モデルを導入し,エンティティグループとタグ名の整合性を大幅に低減することを目的とする。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - BanglaCoNER: Towards Robust Bangla Complex Named Entity Recognition [0.0]
本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成されている。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-16T13:31:31Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - NaijaNER : Comprehensive Named Entity Recognition for 5 Nigerian
Languages [6.742864446722399]
ナイジェリア語5言語を対象とした名前付きエンティティ認識について述べる。
これらの言語は低リソースと見なされており、オープンソースで利用可能な自然言語処理作業はほとんど行われていない。
論文 参考訳(メタデータ) (2021-03-30T22:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。