論文の概要: ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics
- arxiv url: http://arxiv.org/abs/2602.13870v1
- Date: Sat, 14 Feb 2026 19:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.532874
- Title: ADAB: Arabic Dataset for Automated Politeness Benchmarking -- A Large-Scale Resource for Computational Sociopragmatics
- Title(参考訳): ADAB: AArabic Dataset for Automated Politeness Benchmarking -- Computational Sociopragmaticsのための大規模リソース
- Authors: Hend Al-Khalifa, Nadia Ghezaiel, Maria Bounnit, Hend Hamed Alhazmi, Noof Abdullah Alfear, Reem Fahad Alqifari, Ameera Masoud Almasoud, Sharefah Ahmed Al-Ghamdi,
- Abstract要約: 4つのオンラインプラットフォームから収集された新たな注釈付きアラビア語データセットであるADAB(アラビア語ポリテネスデータセット)を紹介する。
このデータセットはアラビア語の伝統とプラグマティック理論に基づいて注釈付けされ、3つのクラス(丁寧、不規則、中性)に分類された。
16の丁寧なカテゴリーにまたがる言語的特徴アノテーションを持つ10,000のサンプルを含み、アノテータ間の実質的な合意を達成している。
- 参考スコア(独自算出の注目度): 0.6323908398583084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing importance of culturally-aware natural language processing systems has led to an increasing demand for resources that capture sociopragmatic phenomena across diverse languages. Nevertheless, Arabic-language resources for politeness detection remain under-explored, despite the rich and complex politeness expressions embedded in Arabic communication. In this paper, we introduce ADAB (Arabic Politeness Dataset), a new annotated Arabic dataset collected from four online platforms, including social media, e-commerce, and customer service domains, covering Modern Standard Arabic and multiple dialects (Gulf, Egyptian, Levantine, and Maghrebi). The dataset was annotated based on Arabic linguistic traditions and pragmatic theory, resulting in three classes: polite, impolite, and neutral. It contains 10,000 samples with linguistic feature annotations across 16 politeness categories and achieves substantial inter-annotator agreement (kappa = 0.703). We benchmark 40 model configurations, including traditional machine learning, transformer-based models, and large language models. The dataset aims to support research on politeness-aware Arabic NLP.
- Abstract(参考訳): 文化的に認識される自然言語処理システムの重要性が高まり、様々な言語にまたがる社会プラグマティックな現象を捉えるリソースの需要が高まっている。
それでも、アラビア語の丁寧さを検出するためのリソースは、アラビア語通信に埋め込まれた豊かで複雑な丁寧さの表現にもかかわらず、未発見のままである。
本稿では、ソーシャルメディア、eコマース、カスタマーサービスドメインを含む4つのオンラインプラットフォームから収集された新たな注釈付きアラビア語データセットであるADAB(アラビア語ポリテネスデータセット)を紹介し、現代標準アラビア語と複数の方言(Gulf, Egypt, Levantine, Maghrebi)について紹介する。
このデータセットはアラビア語の伝統とプラグマティック理論に基づいて注釈付けされ、3つのクラス(丁寧、不規則、中性)に分類された。
16の丁寧なカテゴリーにまたがる言語的特徴アノテーションを持つ10,000のサンプルが含まれており、相当なアノテーション間の合意(kappa = 0.703)を達成している。
従来の機械学習、トランスフォーマーベースのモデル、大規模言語モデルなど、40のモデル構成をベンチマークします。
このデータセットは、礼儀正しいアラビアNLPの研究を支援することを目的としている。
関連論文リスト
- Alexandria: A Multi-Domain Dialectal Arabic Machine Translation Dataset for Culturally Inclusive and Linguistically Diverse LLMs [21.956278976240196]
textbfAlexandriaは、大規模な、コミュニティ主導の、人間による翻訳データセットである。
アレクサンドリアは、健康、教育、農業を含む13のアラブ諸国と11のハイインパクト領域をカバーしている。
このデータセットは、話者の性別設定に注釈を付けたマルチターンの会話シナリオで構成されている。
論文 参考訳(メタデータ) (2026-01-19T14:38:28Z) - SHAMI-MT: A Syrian Arabic Dialect to Modern Standard Arabic Bidirectional Machine Translation System [0.995313069446686]
本稿では,現代標準アラビア語(MSA)とシリア方言のコミュニケーションギャップを橋渡しする双方向機械翻訳システムである textbfSHAMI-MT を紹介する。
MSA-to-Shami とShami-to-MSA の2つの特殊モデルを提案し、どちらも最先端の AraT5v2-base-1024 アーキテクチャ上に構築されている。
MSA-to-ShamiモデルではOPENAIモデルGPT-4.1で判定すると,5.0点中5.0点中1点の平均品質スコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T10:21:11Z) - Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.3750624267664155]
古典アラビア語は、アラブ文化、哲学、科学文学の黄金時代を包含する重要な時代である。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは、66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。