論文の概要: ArabicNLU 2024: The First Arabic Natural Language Understanding Shared Task
- arxiv url: http://arxiv.org/abs/2407.20663v1
- Date: Tue, 30 Jul 2024 08:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:49:53.082438
- Title: ArabicNLU 2024: The First Arabic Natural Language Understanding Shared Task
- Title(参考訳): アラビア語NLU 2024: 共有タスクを理解する最初のアラビア語自然言語
- Authors: Mohammed Khalilia, Sanad Malaysha, Reem Suwaileh, Mustafa Jarrar, Alaa Aljabari, Tamer Elsayed, Imed Zitouni,
- Abstract要約: 本稿ではアラビア自然言語理解(アラビア語NLU 2024)の課題の概要を述べる。
単語センスの曖昧さ (WSD) とロケーション・メンションの曖昧さ (LMD) の2つのサブタスクに焦点を当てている。
この課題は、単語のあいまいさを解消し、アラビア語のテキストで言及されている場所を識別する自動化システムの能力を評価することを目的としていた。
- 参考スコア(独自算出の注目度): 6.338561815855261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents an overview of the Arabic Natural Language Understanding (ArabicNLU 2024) shared task, focusing on two subtasks: Word Sense Disambiguation (WSD) and Location Mention Disambiguation (LMD). The task aimed to evaluate the ability of automated systems to resolve word ambiguity and identify locations mentioned in Arabic text. We provided participants with novel datasets, including a sense-annotated corpus for WSD, called SALMA with approximately 34k annotated tokens, and the IDRISI-DA dataset with 3,893 annotations and 763 unique location mentions. These are challenging tasks. Out of the 38 registered teams, only three teams participated in the final evaluation phase, with the highest accuracy being 77.8% for WSD and the highest MRR@1 being 95.0% for LMD. The shared task not only facilitated the evaluation and comparison of different techniques, but also provided valuable insights and resources for the continued advancement of Arabic NLU technologies.
- Abstract(参考訳): 本稿では,アラビア語の自然言語理解(アラビア語NLU 2024)の課題について概説し,単語センスの曖昧さ(WSD)と位置情報のメンションの曖昧さ(LMD)の2つのサブタスクに着目した。
この課題は、単語のあいまいさを解消し、アラビア語のテキストで言及されている場所を識別する自動化システムの能力を評価することを目的としていた。
参加者には,約34kの注釈付きトークンを持つWSD用センスアノテートコーパス(SALMA)や,3,893のアノテーションと733のユニークなロケーション参照を持つIDRISI-DAデータセットなど,新たなデータセットが提供された。
これらは難しいタスクです。
38チームのうち最終評価フェーズには3チームが参加し、最高精度はWSDが77.8%、MRR@1は95.0%であった。
共有されたタスクは、異なる技術の評価と比較を促進するだけでなく、アラビアのNLU技術の継続的な進歩のための貴重な洞察と資源も提供した。
関連論文リスト
- NADI 2024: The Fifth Nuanced Arabic Dialect Identification Shared Task [28.40134178913119]
第5回Nuanced Arabic Dialect Identification Shared Task(NADI 2024)の発見について述べる。
NADI 2024は、多ラベル課題としての方言の識別と、アラビア語の方言のレベルを識別することの両方を目標とした。
優勝チームはSubtask1で50.57 Ftextsubscript1、Subtask2で0.1403 RMSE、Subtask3で20.44 BLEUを達成した。
論文 参考訳(メタデータ) (2024-07-06T01:18:58Z) - SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages [39.770050337720676]
意味的テクスト関連性(STR)に関する最初の共有課題を提示する。
14言語にまたがる意味的関連性の広範な現象について検討する。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
論文 参考訳(メタデータ) (2024-03-27T18:30:26Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - ArAIEval Shared Task: Persuasion Techniques and Disinformation Detection
in Arabic Text [41.3267575540348]
本稿では, EMNLP 2023と共同で開催される第1回アラビア2023会議の一環として組織されたArAIEval共有タスクの概要を紹介する。
ArAIEvalは、アラビア文字上の2つのタスクを提供する: (i) 説得テクニックの検出、ツイートやニュース記事における説得テクニックの識別、および (ii) ツイート上のバイナリとマルチクラスの設定における偽情報検出。
最終評価フェーズには合計20チームが参加し、タスク1と2には14チームと16チームが参加した。
論文 参考訳(メタデータ) (2023-11-06T15:21:19Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。