論文の概要: A Survey on Arabic Named Entity Recognition: Past, Recent Advances, and
Future Trends
- arxiv url: http://arxiv.org/abs/2302.03512v2
- Date: Wed, 8 Feb 2023 12:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 12:12:15.596795
- Title: A Survey on Arabic Named Entity Recognition: Past, Recent Advances, and
Future Trends
- Title(参考訳): アラビア語のエンティティ認識に関する調査:過去・最近の進歩・将来の動向
- Authors: Xiaoye Qu, Yingjie Gu, Qingrong Xia, Zechang Li, Zhefeng Wang, Baoxing
Huai
- Abstract要約: 我々はアラビア語 NER の発展に関する総合的なレビューを行う。
伝統的なアラビアのNERシステムは、機能工学とドメイン固有のルールの設計に重点を置いている。
事前訓練された言語モデルの成長に伴い、アラビア語のNERはより良いパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 15.302538985992518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As more and more Arabic texts emerged on the Internet, extracting important
information from these Arabic texts is especially useful. As a fundamental
technology, Named entity recognition (NER) serves as the core component in
information extraction technology, while also playing a critical role in many
other Natural Language Processing (NLP) systems, such as question answering and
knowledge graph building. In this paper, we provide a comprehensive review of
the development of Arabic NER, especially the recent advances in deep learning
and pre-trained language model. Specifically, we first introduce the background
of Arabic NER, including the characteristics of Arabic and existing resources
for Arabic NER. Then, we systematically review the development of Arabic NER
methods. Traditional Arabic NER systems focus on feature engineering and
designing domain-specific rules. In recent years, deep learning methods achieve
significant progress by representing texts via continuous vector
representations. With the growth of pre-trained language model, Arabic NER
yields better performance. Finally, we conclude the method gap between Arabic
NER and NER methods from other languages, which helps outline future directions
for Arabic NER.
- Abstract(参考訳): アラビア語のテキストがインターネット上に出現するにつれ、これらのアラビア語のテキストから重要な情報を抽出することは特に有用である。
基本的な技術として、名前付きエンティティ認識(NER)は情報抽出技術のコアコンポーネントとして機能し、質問応答や知識グラフ構築など多くの自然言語処理(NLP)システムにおいて重要な役割を果たす。
本稿では,アラビア語nerの開発,特にディープラーニングと事前学習型言語モデルにおける最近の進歩について概観する。
具体的には、アラビア語 NER の背景として、アラビア語 NER の特徴や、アラビア語 NER の既存の資源について紹介する。
そこで我々はアラビアNER法の開発を体系的にレビューした。
伝統的なアラビア語のNERシステムは機能工学とドメイン固有のルールの設計に重点を置いている。
近年,テキストを連続ベクトル表現で表現することで,深層学習が大きな進歩を遂げている。
事前訓練された言語モデルの成長に伴い、アラビア語のNERはより良いパフォーマンスを得る。
最後に,他の言語からのアラビアNER法とNER法のギャップを解消し,アラビアNERの今後の方向性を概説する。
関連論文リスト
- Gazelle: An Instruction Dataset for Arabic Writing Assistance [12.798604366250261]
アラビア文字支援のための包括的なデータセットであるGazelleを提示する。
また、アラビア文字支援ツールの強化を目的とした評価フレームワークも提供する。
私たちの調査結果は、継続的モデルトレーニングとデータセットの強化の必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2024-10-23T17:51:58Z) - Computational Approaches to Arabic-English Code-Switching [0.0]
我々は,現代標準アラビア語およびアラビア語-英語NERタスクの最先端技術を提案し,適用する。
NERタスクのための最初の注釈付きCSアラビア英語コーパスを作成しました。
すべての手法がCSデータ上でNERタグガーの性能を改善した。
論文 参考訳(メタデータ) (2024-10-17T08:20:29Z) - Transformer Models in Education: Summarizing Science Textbooks with AraBART, MT5, AraT5, and mBART [4.214194481944042]
我々はアラビア語の教科書を対象とする高度なテキスト要約システムを開発した。
このシステムは、パレスチナのカリキュラムにおいて、11年生と12年生の生物学教科書で見られる最も重要な文章を評価し、抽出する。
論文 参考訳(メタデータ) (2024-06-11T20:14:09Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - TArC: Incrementally and Semi-Automatically Collecting a Tunisian Arabish
Corpus [3.8580784887142774]
本稿では,第1次チュニジア・アラブ人コーパス(TArC)の構成過程について述べる。
アラビア語(アラビア語: Arabizi)は、アラビア語の方言をラテン文字とアリスモグラフ(文字として使われる数字)で自発的に符号化したものである。
論文 参考訳(メタデータ) (2020-03-20T22:29:42Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。