論文の概要: Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters
in Hadith Domain
- arxiv url: http://arxiv.org/abs/2307.09630v1
- Date: Thu, 22 Jun 2023 16:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 11:47:24.765900
- Title: Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters
in Hadith Domain
- Title(参考訳): Noor-Ghateh:ハディスドメインにおけるアラビア語単語セグメンタ評価のためのベンチマークデータセット
- Authors: Huda AlShuhayeb, Behrouz Minaei-Bidgoli, Mohammad E. Shenassa,
Sayyed-Ali Hossayni
- Abstract要約: アラビア語を分離する手法を評価するためのベンチマークデータセットを提案する。
このデータセットには、シャリア・アリスラムの本から約223,690語が含まれており、専門家によってラベル付けされている。
- 参考スコア(独自算出の注目度): 6.10917825357379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are many complex and rich morphological subtleties in the Arabic
language, which are very useful when analyzing traditional Arabic texts,
especially in the historical and religious contexts, and help in understanding
the meaning of the texts. Vocabulary separation means separating the word into
different parts such as root and affix. In the morphological datasets, the
variety of labels and the number of data samples helps to evaluate the
morphological methods. In this paper, we present a benchmark data set for
evaluating the methods of separating Arabic words which include about 223,690
words from the book of Sharia alIslam, which have been labeled by experts. In
terms of the volume and variety of words, this dataset is superior to other
existing data sets, and as far as we know, there are no Arabic Hadith Domain
texts. To evaluate the dataset, we applied different methods such as Farasa,
Camel, Madamira, and ALP to the dataset and we reported the annotation quality
through four evaluation methods.
- Abstract(参考訳): アラビア語には多くの複雑で豊かな形態的微妙な特徴があり、伝統的なアラビア語のテキスト、特に歴史的・宗教的文脈を分析し、テキストの意味を理解するのに非常に有用である。
語彙分離とは、単語を根や接尾辞などの別の部分に分けることを意味する。
形態的データセットでは、ラベルの多様性とデータサンプルの数によって、形態学的手法を評価するのに役立つ。
本稿では、専門家がラベル付けした『シャリア・アリラム書』から約223,690語を含むアラビア語単語を分離する手法を評価するためのベンチマークデータセットを提案する。
単語の量や種類について言えば、このデータセットは他の既存のデータセットよりも優れており、我々が知る限り、アラビア語のhadithドメインのテキストは存在しない。
データセットを評価するため,Farasa,Camel,Madamira,ALPなどの異なる手法をデータセットに適用し,アノテーションの品質を4つの評価手法で報告した。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Arabic Text Sentiment Analysis: Reinforcing Human-Performed Surveys with
Wider Topic Analysis [49.1574468325115]
詳細な研究は、2002年から2020年の間に英語で出版された133のASA論文を手作業で分析する。
主な発見は、機械学習、レキシコンベース、ハイブリッドアプローチといった、ASAで使用されるさまざまなアプローチを示している。
アラビア文字SAについては、業界だけでなく学術分野でも使用できるASAツールを開発する必要がある。
論文 参考訳(メタデータ) (2024-03-04T10:37:48Z) - Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect [0.0]
本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
論文 参考訳(メタデータ) (2023-03-28T14:02:42Z) - Sentiment Analysis in Poems in Misurata Sub-dialect -- A Sentiment
Detection in an Arabic Sub-dialect [0.0]
この研究は、リビアで話されているミシュラタ・アラビア語サブ方言で書かれた詩の感情を検出することに焦点を当てた。
データセットから感情を検出するために使用されるツールは、SklearnとMazajak sentiment tool 1.1である。
論文 参考訳(メタデータ) (2021-09-15T10:42:39Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。