論文の概要: mucAI at WojoodNER 2024: Arabic Named Entity Recognition with Nearest Neighbor Search
- arxiv url: http://arxiv.org/abs/2408.03652v1
- Date: Wed, 7 Aug 2024 09:34:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:24:06.979856
- Title: mucAI at WojoodNER 2024: Arabic Named Entity Recognition with Nearest Neighbor Search
- Title(参考訳): mucAI at WojoodNER 2024: アラビア名のエンティティ認識
- Authors: Ahmed Abdou, Tasneem Mohsen,
- Abstract要約: 我々は、Wojood NER Shared Task 2024(アラビア語NLP 2024)へのアラビア語KNN-NERの導入について紹介する。
本稿では,アラビア文字の細粒度平坦度認識に取り組み,各単語の1つの主実体とおそらく0または複数のサブエンティティを識別する。
我々の提出は、WojoodFineデータセット上でのテストセットで91%を獲得し、アラビア語のKNN-NERを共有タスクのリーダーボードの上に配置しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a task in Natural Language Processing (NLP) that aims to identify and classify entities in text into predefined categories. However, when applied to Arabic data, NER encounters unique challenges stemming from the language's rich morphological inflections, absence of capitalization cues, and spelling variants, where a single word can comprise multiple morphemes. In this paper, we introduce Arabic KNN-NER, our submission to the Wojood NER Shared Task 2024 (ArabicNLP 2024). We have participated in the shared sub-task 1 Flat NER. In this shared sub-task, we tackle fine-grained flat-entity recognition for Arabic text, where we identify a single main entity and possibly zero or multiple sub-entities for each word. Arabic KNN-NER augments the probability distribution of a fine-tuned model with another label probability distribution derived from performing a KNN search over the cached training data. Our submission achieved 91% on the test set on the WojoodFine dataset, placing Arabic KNN-NER on top of the leaderboard for the shared task.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、自然言語処理(NLP)におけるタスクであり、テキスト内のエンティティを事前に定義されたカテゴリに識別し分類することを目的としている。
しかし、アラビア語のデータに適用すると、NERは言語が豊富な形態素のインフレクション、大文字化の手がかりの欠如、スペルの変種から生じる固有の課題に遭遇し、1つの単語が複数の形態素から構成される。
本稿では,Wojood NER Shared Task 2024(アラビア語NLP 2024)へのアラビア語KNN-NERの提出について紹介する。
我々は、共有サブタスク1フラットNERに参加した。
この共有サブタスクでは、アラビア文字の細粒度平坦度認識に取り組み、各単語の1つの主実体と、おそらくは0または複数のサブエンティティを識別する。
アラビアKNN-NERは、キャッシュされたトレーニングデータ上でKNN検索を実行することに由来する別のラベル確率分布で、微調整モデルの確率分布を増大させる。
我々の提出は、WojoodFineデータセット上でのテストセットで91%を獲得し、アラビア語のKNN-NERを共有タスクのリーダーボードの上に配置しました。
関連論文リスト
- Computational Approaches to Arabic-English Code-Switching [0.0]
我々は,現代標準アラビア語およびアラビア語-英語NERタスクの最先端技術を提案し,適用する。
NERタスクのための最初の注釈付きCSアラビア英語コーパスを作成しました。
すべての手法がCSデータ上でNERタグガーの性能を改善した。
論文 参考訳(メタデータ) (2024-10-17T08:20:29Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Arabic Dialect Identification Using BERT-Based Domain Adaptation [0.0]
アラビア語は世界で最も重要で成長している言語の一つです
Twitterなどのソーシャルメディアプラットフォームが台頭すると、アラビア語の方言がより使われるようになった。
論文 参考訳(メタデータ) (2020-11-13T15:52:51Z) - Multi-Dialect Arabic BERT for Country-Level Dialect Identification [1.2928709656541642]
提案する実験と、競合するチームであるMawdoo3 AIによって開発されたモデルについて述べる。
方言識別サブタスクは、アラブ21カ国すべてをカバーする21,000の国レベルのラベル付きつぶやきを提供する。
優勝したソリューションの事前学習された言語モデルコンポーネントを、Multi-dialect-Arabic-BERTモデルの名称で公開します。
論文 参考訳(メタデータ) (2020-07-10T21:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。