論文の概要: Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters
in Hadith Domain
- arxiv url: http://arxiv.org/abs/2307.09630v1
- Date: Thu, 22 Jun 2023 16:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 11:47:24.765900
- Title: Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters
in Hadith Domain
- Title(参考訳): Noor-Ghateh:ハディスドメインにおけるアラビア語単語セグメンタ評価のためのベンチマークデータセット
- Authors: Huda AlShuhayeb, Behrouz Minaei-Bidgoli, Mohammad E. Shenassa,
Sayyed-Ali Hossayni
- Abstract要約: アラビア語を分離する手法を評価するためのベンチマークデータセットを提案する。
このデータセットには、シャリア・アリスラムの本から約223,690語が含まれており、専門家によってラベル付けされている。
- 参考スコア(独自算出の注目度): 6.10917825357379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are many complex and rich morphological subtleties in the Arabic
language, which are very useful when analyzing traditional Arabic texts,
especially in the historical and religious contexts, and help in understanding
the meaning of the texts. Vocabulary separation means separating the word into
different parts such as root and affix. In the morphological datasets, the
variety of labels and the number of data samples helps to evaluate the
morphological methods. In this paper, we present a benchmark data set for
evaluating the methods of separating Arabic words which include about 223,690
words from the book of Sharia alIslam, which have been labeled by experts. In
terms of the volume and variety of words, this dataset is superior to other
existing data sets, and as far as we know, there are no Arabic Hadith Domain
texts. To evaluate the dataset, we applied different methods such as Farasa,
Camel, Madamira, and ALP to the dataset and we reported the annotation quality
through four evaluation methods.
- Abstract(参考訳): アラビア語には多くの複雑で豊かな形態的微妙な特徴があり、伝統的なアラビア語のテキスト、特に歴史的・宗教的文脈を分析し、テキストの意味を理解するのに非常に有用である。
語彙分離とは、単語を根や接尾辞などの別の部分に分けることを意味する。
形態的データセットでは、ラベルの多様性とデータサンプルの数によって、形態学的手法を評価するのに役立つ。
本稿では、専門家がラベル付けした『シャリア・アリラム書』から約223,690語を含むアラビア語単語を分離する手法を評価するためのベンチマークデータセットを提案する。
単語の量や種類について言えば、このデータセットは他の既存のデータセットよりも優れており、我々が知る限り、アラビア語のhadithドメインのテキストは存在しない。
データセットを評価するため,Farasa,Camel,Madamira,ALPなどの異なる手法をデータセットに適用し,アノテーションの品質を4つの評価手法で報告した。
関連論文リスト
- Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Arabic Handwritten Text Line Dataset [0.0]
アラビア文字に特化して設計された新しいデータセットについて,単語レベルでのアノテート位置について述べる。
テキスト行へのセグメンテーションの問題は、このタスク専用の注意深い注釈付きデータセットが存在するため解決される。
論文 参考訳(メタデータ) (2023-12-10T14:32:25Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect [0.0]
本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
論文 参考訳(メタデータ) (2023-03-28T14:02:42Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。