論文の概要: EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter)
- arxiv url: http://arxiv.org/abs/2504.18142v1
- Date: Fri, 25 Apr 2025 07:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.68431
- Title: EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter)
- Title(参考訳): EDU-NER-2025:XLM-RoBERTa with X(旧Twitter)を用いたウルドゥー教育用テキストのエンティティ認識
- Authors: Fida Ullah, Muhammad Ahmad, Muhammad Tayyab Zamir, Muhammad Arif, Grigori sidorov, Edgardo Manuel Felipe Riverón, Alexander Gelbukh,
- Abstract要約: EDU-NER-2025という名前の、教育ドメインに関連する13の最もユニークなエンティティを含む、手動で注釈付きデータセットを作成します。
フォーマルなウルドゥー語文でよく見られる形態的複雑性や曖昧さといった重要な言語的課題に対処し、分析する。
- 参考スコア(独自算出の注目度): 41.29397464848022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) plays a pivotal role in various Natural Language Processing (NLP) tasks by identifying and classifying named entities (NEs) from unstructured data into predefined categories such as person, organization, location, date, and time. While extensive research exists for high-resource languages and general domains, NER in Urdu particularly within domain-specific contexts like education remains significantly underexplored. This is Due to lack of annotated datasets for educational content which limits the ability of existing models to accurately identify entities such as academic roles, course names, and institutional terms, underscoring the urgent need for targeted resources in this domain. To the best of our knowledge, no dataset exists in the domain of the Urdu language for this purpose. To achieve this objective this study makes three key contributions. Firstly, we created a manually annotated dataset in the education domain, named EDU-NER-2025, which contains 13 unique most important entities related to education domain. Second, we describe our annotation process and guidelines in detail and discuss the challenges of labelling EDU-NER-2025 dataset. Third, we addressed and analyzed key linguistic challenges, such as morphological complexity and ambiguity, which are prevalent in formal Urdu texts.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、名前付きエンティティ(NE)を非構造化データから人、組織、場所、日付、時間といった予め定義されたカテゴリに識別し分類することで、さまざまな自然言語処理(NLP)タスクにおいて重要な役割を果たす。
高リソース言語や一般ドメインに対する広範な研究は存在するが、特に教育のようなドメイン固有の文脈において、NERは明らかに過小評価されている。
これは、既存のモデルが学術的役割、コース名、制度用語などのエンティティを正確に識別する能力を制限する、教育コンテンツのための注釈付きデータセットがないためであり、この領域におけるターゲットリソースの緊急な必要性を裏付けている。
我々の知る限りでは、この目的のためにウルドゥー語の領域にデータセットは存在しない。
この目的を達成するために,本研究では3つの重要な貢献を行う。
まず、教育領域に関する13のユニークな重要なエンティティを含むEDU-NER-2025という、手動で注釈付きデータセットを作成しました。
次に、アノテーションプロセスとガイドラインを詳述し、EDU-NER-2025データセットのラベル付けの課題について論じる。
第三に、フォーマルなウルドゥー語文でよく見られる形態的複雑性や曖昧さといった重要な言語問題に対処し、分析した。
関連論文リスト
- Unsupervised Named Entity Disambiguation for Low Resource Domains [0.4297070083645049]
GST(Group Steiner Trees)の概念を利用した教師なしアプローチを提案する。
GSTは、候補エンティティ間のコンテキスト的類似性を用いて、最も関連性の高いエンティティの曖昧さの候補を特定することができる。
我々は、さまざまなドメイン固有のデータセットでPrecision@1の観点で、最先端の教師なしメソッドを40%以上(例では)上回っています。
論文 参考訳(メタデータ) (2024-12-13T11:35:00Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - DaN+: Danish Nested Named Entities and Lexical Normalization [18.755176247223616]
本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T14:35:21Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Domain-Transferable Method for Named Entity Recognition Task [0.6040938686276304]
本稿では、任意の名前付きエンティティの集合に対して、ドメイン固有のNERモデルを学習する方法について述べる。
我々は、人間の努力なしに監督が得られ、ニューラルモデルが互いに学習できると仮定する。
論文 参考訳(メタデータ) (2020-11-24T15:45:52Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。