論文の概要: Proper Name Diacritization for Arabic Wikipedia: A Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2505.02656v1
- Date: Mon, 05 May 2025 14:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.696993
- Title: Proper Name Diacritization for Arabic Wikipedia: A Benchmark Dataset
- Title(参考訳): アラビア語ウィキペディアの適切な名前表記:ベンチマークデータセット
- Authors: Rawan Bondok, Mayar Nassar, Salam Khalifa, Kurt Micallaf, Nizar Habash,
- Abstract要約: 我々は、英語のウィキペディアと同等の用語で、様々な起源のアラビア語の固有名称を手作業で分類したデータセットを導入する。
GPT-4oは、アラビア語と英語の未分類形態を考慮し、完全発音を回復する作業についてベンチマークを行った。
我々の結果は、タスクの難しさと改善されたモデルとリソースの必要性の両方を浮き彫りにした。
- 参考スコア(独自算出の注目度): 11.204164618338863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proper names in Arabic Wikipedia are frequently undiacritized, creating ambiguity in pronunciation and interpretation, especially for transliterated named entities of foreign origin. While transliteration and diacritization have been well-studied separately in Arabic NLP,their intersection remains underexplored. In this paper, we introduce a new manually diacritized dataset of Arabic proper names of various origins with their English Wikipedia equivalent glosses, and present the challenges and guidelines we followed to create it. We benchmark GPT-4o on the task of recovering full diacritization given the undiacritized Arabic and English forms, and analyze its performance. Achieving 73% accuracy, our results underscore both the difficulty of the task and the need for improved models and resources. We release our dataset to facilitate further research on Arabic Wikipedia proper name diacritization.
- Abstract(参考訳): アラビア語ウィキペディアの固有名は、しばしば未訳であり、発音と解釈の曖昧さを生んでいる。
アラビア語のNLPでは、翻訳とダイアクリプティゼーションは別々に研究されているが、それらの交差点は未調査のままである。
本稿では、英語のウィキペディアに相当するグルースを用いて、アラビア語起源の固有名称を手作業で分類したデータセットを導入し、それの作成に追随した課題とガイドラインを提示する。
GPT-4oは、アラビア語と英語の未発音形態を考慮し、完全発音を回復する作業についてベンチマークを行い、その性能を解析した。
73%の精度を達成し,課題の難しさと改善されたモデルとリソースの必要性を両立させた。
アラビア語ウィキペディアの固有名辞書化に関するさらなる研究を促進するため、我々のデータセットをリリースする。
関連論文リスト
- Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition [0.0]
アラビア語ウィキペディアの3つの版、アラビア語ウィキペディア(AR)、エジプトアラビア語ウィキペディア(ARZ)、モロッコアラビア語ウィキペディア(ary)を研究している。
エジプト・アラビア語ウィキペディアで発生したテンプレート翻訳の問題を,これらのテンプレート翻訳記事とその特徴を識別することによって緩和することを目的としている。
論文 参考訳(メタデータ) (2024-03-31T05:14:38Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。