論文の概要: Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain
- arxiv url: http://arxiv.org/abs/2307.09630v2
- Date: Thu, 23 Jan 2025 14:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:25.217314
- Title: Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain
- Title(参考訳): Noor-Ghateh:Hadithドメインにおけるアラビア語単語セグメンタ評価のためのベンチマークデータセット
- Authors: Huda AlShuhayeb, Behrouz Minaei-Bidgoli, Mohammad E. Shenassa, Sayyed-Ali Hossayni,
- Abstract要約: 本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
- 参考スコア(独自算出の注目度): 5.916745177895035
- License:
- Abstract: There are numerous complex and rich morphological features in the Arabic language, which are highly useful when analyzing traditional Arabic textbooks, especially in the literary and religious contexts, and help in understanding the meaning of the textbooks. Vocabulary separation means separating the word into different components, such as the root and affixes. In the morphological datasets, the variety of markers and the number of data samples help to evaluate the morphological techniques. In this paper, we present a standard dataset for analyzing the Arabic segmentation tools, which includes approximately 223,690 words from the "Shariat al-Islam" book, labeled by human experts. In terms of volume and word variety, this dataset is superior to the other Hadith Arabic datasets, to the best of our knowledge. To estimate the dataset, we applied different methods, including Farasa, Camel, and ALP, and reported the annotation quality and analyzed the benchmark specifications as well. This be
- Abstract(参考訳): アラビア語には多くの複雑で豊富な形態学的特徴があり、特に文学や宗教の文脈において、伝統的なアラビア語の教科書を分析するのに非常に有用であり、教科書の意味を理解するのに役立っている。
語彙分離とは、単語を根や接尾辞などの異なる構成要素に分けることを意味する。
形態的データセットでは、マーカーの多様性とデータサンプルの数によって、形態学的手法を評価するのに役立ちます。
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて紹介する。このデータセットには,人間の専門家による「シャリアト・アル・イスラム」の約223,690語が含まれている。
ボリュームと単語の多様性に関しては、このデータセットは他のHadithアラビアのデータセットよりも優れています。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
これは
関連論文リスト
- Arabic Diacritics in the Wild: Exploiting Opportunities for Improved Diacritization [9.191117990275385]
アラビア語テキストにおけるダイアクリティカルマークの欠如は、アラビア語自然言語処理(NLP)に重大な課題をもたらす
本稿では,自然発生型ダイアクリティカルティクスを「野生におけるダイアクリティカルティクス」と呼ぶ事例について検討する。
そこで本研究では,実世界の部分的辞書化単語を文脈における最大完全辞書化にマッピングする注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:29:55Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Arabic Handwritten Text Line Dataset [0.0]
アラビア文字に特化して設計された新しいデータセットについて,単語レベルでのアノテート位置について述べる。
テキスト行へのセグメンテーションの問題は、このタスク専用の注意深い注釈付きデータセットが存在するため解決される。
論文 参考訳(メタデータ) (2023-12-10T14:32:25Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Sentiment Analysis Dataset in Moroccan Dialect: Bridging the Gap Between Arabic and Latin Scripted dialect [0.0]
本研究は、モロッコの言語多様性の全スペクトルを包含する感情分析を拡張することの重要性を強調する。
多様なテキストデータを組み立てることで、モロッコ方言で20万文字のラベル付きテキストのデータセットを構築することができた。
感情分析を掘り下げるために、複数の機械学習モデルの比較研究を行い、データセットとの互換性を評価した。
論文 参考訳(メタデータ) (2023-03-28T14:02:42Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Automatic Arabic Dialect Identification Systems for Written Texts: A
Survey [0.0]
アラビア語の方言識別は自然言語処理の特定のタスクであり、与えられたテキストのアラビア語方言を自動的に予測することを目的としている。
本稿では,アラビア語の方言識別研究をテキストで包括的に調査する。
本稿では、従来の機械学習手法、ディープラーニングアーキテクチャ、アラビア方言識別のための複雑な学習アプローチについてレビューする。
論文 参考訳(メタデータ) (2020-09-26T15:33:16Z) - Deep Learning Based Text Classification: A Comprehensive Review [75.8403533775179]
本稿では,近年開発されたテキスト分類のための150以上のディープラーニングモデルについてレビューする。
また、テキスト分類に広く使われている40以上の一般的なデータセットの要約も提供する。
論文 参考訳(メタデータ) (2020-04-06T02:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。