論文の概要: QuranMorph: Morphologically Annotated Quranic Corpus
- arxiv url: http://arxiv.org/abs/2506.18148v1
- Date: Sun, 22 Jun 2025 19:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.774761
- Title: QuranMorph: Morphologically Annotated Quranic Corpus
- Title(参考訳): QuranMorph: 形態学的に注釈を付けたQuranic Corpus
- Authors: Diyam Akra, Tymaa Hammouda, Mustafa Jarrar,
- Abstract要約: QuranMorphは、Quranのモルフォロジー的な注釈付きコーパスである。
補題化プロセスはアラビア語の語彙データベースであるQabasの補題を利用していた。
微粒なSAMA/Qabasタグセットを用いて音声タグ付けを行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the QuranMorph corpus, a morphologically annotated corpus for the Quran (77,429 tokens). Each token in the QuranMorph was manually lemmatized and tagged with its part-of-speech by three expert linguists. The lemmatization process utilized lemmas from Qabas, an Arabic lexicographic database linked with 110 lexicons and corpora of 2 million tokens. The part-of-speech tagging was performed using the fine-grained SAMA/Qabas tagset, which encompasses 40 tags. As shown in this paper, this rich lemmatization and POS tagset enabled the QuranMorph corpus to be inter-linked with many linguistic resources. The corpus is open-source and publicly available as part of the SinaLab resources at (https://sina.birzeit.edu/quran)
- Abstract(参考訳): 形態的に注釈付けされたQuranMorph corpus(77,429トークン)を提示する。
QuranMorphのそれぞれのトークンは手動で補修され、3人の専門言語学者によってそのパート・オブ・スペルでタグ付けされた。
補題化プロセスでは、110のレキシコンと200万のトークンのコーパスをリンクしたアラビアのレキシコグラフィーデータベースであるQabasの補題を利用していた。
40個のタグを含むきめ細かいSAMA/Qabasタグセットを用いて音声タグ付けを行った。
本稿で示すように、このリッチな補題化とPOSタグセットにより、QuranMorphコーパスは多くの言語資源と相互にリンクできる。
コーパスはオープンソースで、SinaLabのリソースの一部として公開されている(https://sina.birzeit.edu/quran)。
関連論文リスト
- A computational system to handle the orthographic layer of tajwid in contemporary Quranic Orthography [0.0]
我々は、カイロ・クルランで遭遇するタジウィドの規則の体系性を探る。
そこで我々は,CQO のQuranic テキストから Tajwid の正書層を除去または付加できる python モジュールを開発した。
論文 参考訳(メタデータ) (2025-05-16T15:41:51Z) - Qabas: An Open-Source Arabic Lexicographic Database [0.0]
我々は、NLPアプリケーション用に設計されたオープンソースのアラビア辞書であるQabasを紹介する。
カバ・レキシカル・エントリー (Qabas lexical entry) は110レキシコンからのレキシコンをリンクすることで組み立てられる。
カバス・レムマはまた、12の形態学的に注釈付けされたコーパスと結びついている。
論文 参考訳(メタデータ) (2024-06-06T09:25:36Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Lisan: Yemenu, Irqi, Libyan, and Sudanese Arabic Dialect Copora with
Morphological Annotations [0.0]
この記事では、形態学的に注釈付けされたイエメン、スーダン、イラク、リビアのアラビア語のLisan corporaについて述べる。
いくつかのソーシャルメディアプラットフォームからコーパスの内容を収集した。
注釈者は4つのコーパスの全ての単語を接頭辞、茎、接尾辞に分類し、それぞれに音声の一部、レムマ、グロスなどの異なる形態的特徴をラベル付けした。
論文 参考訳(メタデータ) (2022-12-13T10:37:10Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Contemporary Amharic Corpus: Automatically Morpho-Syntactically Tagged
Amharic Corpus [0.04915744683251149]
Amharic corpusは部分的にウェブコーパスである。
テキストは、異なるドメインから25,199の文書から収集される。
約2400万の正書法語がトークン化されている。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Quran Intelligent Ontology Construction Approach Using Association Rules
Mining [0.0]
本研究プロジェクトは、クアランオントロジーを抽出するためのアソシエーションルールの使用に関するものである。
本システムは,Quran句から意味的・概念的関係を抽出する統計と手法の組み合わせに基づく。
クァランの概念はクァランの知識の新しい強力な表現を提供し、関連ルールはクァランにおける連結概念のすべてのクラス間の関係を表現するのに役立つ。
論文 参考訳(メタデータ) (2020-08-07T15:48:58Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。