論文の概要: Tarab: A Multi-Dialect Corpus of Arabic Lyrics and Poetry
- arxiv url: http://arxiv.org/abs/2603.16601v1
- Date: Tue, 17 Mar 2026 14:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.350356
- Title: Tarab: A Multi-Dialect Corpus of Arabic Lyrics and Poetry
- Title(参考訳): Tarab:アラビア語の歌詞と詩の多言語コーパス
- Authors: Mo El-Haj,
- Abstract要約: アラビア語は、古典と現代の両方にまたがる創造的なテキストの最大オープンアラビア語コーパスである。
コーパスに代表される芸術家や詩人は28の近代国家と複数の歴史的時代と結びついている。
データセットはHuggingFaceでhttps://huggingface.co/datasets/drelhaj/Tarabで公開されている。
- 参考スコア(独自算出の注目度): 2.0910011859259714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Tarab Corpus, a large-scale cultural and linguistic resource that brings together Arabic song lyrics and poetry within a unified analytical framework. The corpus comprises 2.56 million verses and more than 13.5 million tokens, making it, to our knowledge, the largest open Arabic corpus of creative text spanning both classical and contemporary production. Tarab is broadly balanced between songs and poems and covers Classical Arabic, Modern Standard Arabic (MSA), and six major regional varieties: Egyptian, Gulf, Levantine, Iraqi, Sudanese, and Maghrebi Arabic. The artists and poets represented in the corpus are associated with 28 modern nation states and multiple historical eras, covering over fourteen centuries of Arabic creative expression from the Pre-Islamic period to the twenty-first century. Each verse is accompanied by structured metadata describing linguistic variety, geographic origin, and historical or cultural context, enabling comparative linguistic, stylistic, and diachronic analysis across genres and time. We describe the data collection, normalisation, and validation pipeline and present baseline analyses for variety identification and genre differentiation. The dataset is publicly available on HuggingFace at https://huggingface.co/datasets/drelhaj/Tarab.
- Abstract(参考訳): 我々は,アラビア語の歌詞と詩を統一的な分析枠組みにまとめる,大規模な文化的・言語的資源であるTarab Corpusを紹介した。
コーパスは256万の詩と1350万以上のトークンで構成されており、私たちの知る限り、古典と現代の両方にまたがる創造的テキストの最大オープンアラビア語コーパスである。
アラビア語、現代標準アラビア語(MSA)、エジプト、ガルフ、レバンタ、イラク、スーダン、マグレビの6つの地域品種をカバーしている。
コーパスに代表される芸術家や詩人は28の近代国家国家と複数の歴史的時代と結びついており、イスラム以前の14世紀から21世紀にかけてのアラビアの創造的な表現をカバーしている。
それぞれの詩には、言語的多様性、地理的起源、歴史的または文化的文脈を記述した構造化されたメタデータが伴い、ジャンルや時間にまたがる比較言語的、スタイリスティック、ダイアクロニックな分析を可能にする。
本稿では,データ収集,正規化,検証パイプラインについて述べる。
データセットはHuggingFaceでhttps://huggingface.co/datasets/drelhaj/Tarabで公開されている。
関連論文リスト
- DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding [32.85312741808662]
1,272のキュレートされたサンプルのベンチマークであるDuwatBenchについて紹介する。
このデータセットは、複雑なストロークパターン、密集したリグチュア、スタイリスティックなバリエーションなど、アラビア文字の現実的な課題を反映している。
DuwatBenchを用いて、アラビア語と多言語のマルチモーダルモデルを13種類評価し、クリーンテキストでうまく機能する一方で、書体の変化、芸術的歪み、正確な視覚的テキストアライメントに苦慮していることを示した。
論文 参考訳(メタデータ) (2026-01-27T18:59:19Z) - DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - Open Korean Historical Corpus: A Millennia-Scale Diachronic Collection of Public Domain Texts [52.754009498236684]
我々は1,300年と6つの言語からなるデータセットであるOpen Korean Historical Corpusを紹介した。
このコーパスには7世紀から2025年までの19の資料から1800万の文書と50億のトークンが含まれている。
この研究は、韓国語の歴史を捉えることで、量的二時間分析の基盤となる資源を提供する。
論文 参考訳(メタデータ) (2025-10-28T15:43:26Z) - Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs [32.247169514152425]
EmphFannまたはFlopは、アラビア語詩の理解を大規模言語モデルで評価するための最初のベンチマークである。
このベンチマークは、意味的理解、比喩的解釈、韻律的認識、文化的文脈を評価するための説明付き詩のコーパスで構成されている。
論文 参考訳(メタデータ) (2025-05-23T17:59:29Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Ashaar: Automatic Analysis and Generation of Arabic Poetry Using Deep
Learning Approaches [7.021140304091526]
本稿では,アラビア詩の分析・生成に特化して設計されたデータセットと事前学習モデルの集合を含むtextitAshaar というフレームワークを紹介する。
提案手法で確立されたパイプラインは, メーター, テーマ, 年代分類など, 詩の様々な側面を包含する。
この取り組みの一環として、詩生成のためのデータセットと、診断のためのデータセットと、Arudiスタイルの予測のためのデータセットを4つ提供します。
論文 参考訳(メタデータ) (2023-07-12T15:07:16Z) - Noor-Ghateh: A Benchmark Dataset for Evaluating Arabic Word Segmenters in Hadith Domain [5.916745177895035]
本稿では,アラビア語のセグメンテーションツールを解析するための標準データセットについて述べる。
データセットを推定するために、Farasa、Camel、ALPなどさまざまな手法を適用し、アノテーションの品質を報告し、ベンチマーク仕様も分析した。
論文 参考訳(メタデータ) (2023-06-22T16:50:40Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - New Arabic Medical Dataset for Diseases Classification [55.41644538483948]
いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
論文 参考訳(メタデータ) (2021-06-29T10:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。