論文の概要: Konooz: Multi-domain Multi-dialect Corpus for Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2506.12615v1
- Date: Sat, 14 Jun 2025 19:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.586247
- Title: Konooz: Multi-domain Multi-dialect Corpus for Named Entity Recognition
- Title(参考訳): Konooz: 名前付きエンティティ認識のためのマルチドメイン多言語コーパス
- Authors: Nagham Hamad, Mohammed Khalilia, Mustafa Jarrar,
- Abstract要約: コヌーズ(Konoz)は、10の領域にまたがる16のアラビア方言をカバーする新しい多次元コーパスである。
Konoozは、ドメイン適応や転送学習といったさまざまなNLPタスクに役立ちます。
- 参考スコア(独自算出の注目度): 0.5461938536945721
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Konooz, a novel multi-dimensional corpus covering 16 Arabic dialects across 10 domains, resulting in 160 distinct corpora. The corpus comprises about 777k tokens, carefully collected and manually annotated with 21 entity types using both nested and flat annotation schemes - using the Wojood guidelines. While Konooz is useful for various NLP tasks like domain adaptation and transfer learning, this paper primarily focuses on benchmarking existing Arabic Named Entity Recognition (NER) models, especially cross-domain and cross-dialect model performance. Our benchmarking of four Arabic NER models using Konooz reveals a significant drop in performance of up to 38% when compared to the in-distribution data. Furthermore, we present an in-depth analysis of domain and dialect divergence and the impact of resource scarcity. We also measured the overlap between domains and dialects using the Maximum Mean Discrepancy (MMD) metric, and illustrated why certain NER models perform better on specific dialects and domains. Konooz is open-source and publicly available at https://sina.birzeit.edu/wojood/#download
- Abstract(参考訳): 我々は、10の領域にわたる16のアラビア方言をカバーする新しい多次元コーパスであるKonozを紹介し、160の異なるコーパスを生み出した。
コーパスは777kのトークンで構成されており、慎重に収集され、Wojoodガイドラインを使用してネストとフラットのアノテーションスキームを使用して21のエンティティタイプで手動で注釈付けされている。
Konoozは、ドメイン適応や転送学習といった様々なNLPタスクに有用であるが、本論文は主に、既存のアラビア名前付きエンティティ認識(NER)モデルのベンチマーク、特にクロスドメインおよびクロスダイアレクトモデルの性能に焦点を当てている。
Konoozを用いた4つのアラビアNERモデルのベンチマークでは,分布内データと比較すると,最大38%の性能低下が確認された。
さらに,ドメインと方言の相違と資源不足の影響について詳細な分析を行った。
また,MMD(Maximum Mean Discrepancy)測定値を用いて,ドメインと方言の重なりを計測し,特定のNERモデルが特定の方言やドメインに対して優れている理由を明らかにした。
Konoozはオープンソースで、https://sina.birzeit.edu/wojood/#downloadで公開されている。
関連論文リスト
- mucAI at WojoodNER 2024: Arabic Named Entity Recognition with Nearest Neighbor Search [0.0]
我々は、Wojood NER Shared Task 2024(アラビア語NLP 2024)へのアラビア語KNN-NERの導入について紹介する。
本稿では,アラビア文字の細粒度平坦度認識に取り組み,各単語の1つの主実体とおそらく0または複数のサブエンティティを識別する。
我々の提出は、WojoodFineデータセット上でのテストセットで91%を獲得し、アラビア語のKNN-NERを共有タスクのリーダーボードの上に配置しました。
論文 参考訳(メタデータ) (2024-08-07T09:34:55Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - DaN+: Danish Nested Named Entities and Lexical Normalization [18.755176247223616]
本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T14:35:21Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。