論文の概要: MURAD: A Large-Scale Multi-Domain Unified Reverse Arabic Dictionary Dataset
- arxiv url: http://arxiv.org/abs/2601.21512v1
- Date: Thu, 29 Jan 2026 10:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.73306
- Title: MURAD: A Large-Scale Multi-Domain Unified Reverse Arabic Dictionary Dataset
- Title(参考訳): murad: 大規模マルチドメイン統一逆アラビア辞書データセット
- Authors: Serry Sibaee, Yasser Alhabashi, Nadia Sibai, Yara Farouk, Adel Ammar, Sawsan AlHalawani, Wadii Boulila,
- Abstract要約: muraD (Multi- domain Unified Reverse Arabic Dictionary) は96,243の単語定義ペアを持つオープン語彙データセットである。
このデータセットは言語学、イスラーム研究、数学、物理学、心理学、工学の用語をカバーしている。
計算言語学と語彙学の研究をサポートする。
- 参考スコア(独自算出の注目度): 4.621023604328769
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Arabic is a linguistically and culturally rich language with a vast vocabulary that spans scientific, religious, and literary domains. Yet, large-scale lexical datasets linking Arabic words to precise definitions remain limited. We present MURAD (Multi-domain Unified Reverse Arabic Dictionary), an open lexical dataset with 96,243 word-definition pairs. The data come from trusted reference works and educational sources. Extraction used a hybrid pipeline integrating direct text parsing, optical character recognition, and automated reconstruction. This ensures accuracy and clarity. Each record aligns a target word with its standardized Arabic definition and metadata that identifies the source domain. The dataset covers terms from linguistics, Islamic studies, mathematics, physics, psychology, and engineering. It supports computational linguistics and lexicographic research. Applications include reverse dictionary modeling, semantic retrieval, and educational tools. By releasing this resource, we aim to advance Arabic natural language processing and promote reproducible research on Arabic lexical semantics.
- Abstract(参考訳): アラビア語は言語的にも文化的にも豊かな言語であり、科学的、宗教的、文学的な領域にまたがる広大な語彙を持つ。
しかし、アラビア語の単語と正確な定義を結びつける大規模な語彙データセットは依然として限られている。
我々は96,243の単語定義ペアを持つオープン語彙データセットであるMulti- domain Unified Reverse Arabic Dictionaryを提示する。
データは信頼できる参考資料や教育資料から来ている。
抽出には、直接テキスト解析、光学文字認識、自動再構築を統合したハイブリッドパイプラインを使用した。
これにより正確さと明快さが保証される。
各レコードは、ターゲットの単語と、ソースドメインを識別するアラビア文字の定義とメタデータを一致させる。
このデータセットは言語学、イスラーム研究、数学、物理学、心理学、工学の用語をカバーしている。
計算言語学と語彙学の研究をサポートする。
応用例としては、逆辞書モデリング、意味検索、教育ツールなどがある。
このリソースを公開することにより、アラビア語の自然言語処理を進歩させ、アラビア語の語彙意味論に関する再現可能な研究を促進することを目指している。
関連論文リスト
- WikiTermBase: An AI-Augmented Term Base to Standardize Arabic Translation on Wikipedia [0.0]
この抽象化は、900K以上の用語で辞書データベースを構築するための体系的なアプローチを備えた、オープンソースのツールであるWikiTermBaseを紹介している。
このツールはアラビア語のウィキペディアで英語とフランス語の翻訳語を標準化することに成功した。
論文 参考訳(メタデータ) (2025-05-26T11:27:01Z) - Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines [0.8944616102795021]
本研究では,アラビア語の自然言語処理における限界を,効果的なアラビア語逆辞書(RD)システムによって解決する。
幾何学的に減少する層を特徴とするセミエンコーダニューラルネットワークアーキテクチャを用いたトランスフォーマーに基づく新しいアプローチを提案する。
本手法は、包括的なデータセット構築プロセスを導入し、アラビア辞書定義の形式的品質基準を確立する。
論文 参考訳(メタデータ) (2025-04-30T09:56:36Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。