論文の概要: Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs
- arxiv url: http://arxiv.org/abs/2505.18152v2
- Date: Mon, 26 May 2025 17:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.752861
- Title: Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs
- Title(参考訳): Fann or Flop: LLMにおけるアラビア詩理解のためのマルチジャンルのベンチマーク
- Authors: Wafa Alghallabi, Ritesh Thawkar, Sara Ghaboura, Ketan More, Omkar Thawakar, Hisham Cholakkal, Salman Khan, Rao Muhammad Anwer,
- Abstract要約: EmphFannまたはFlopは、アラビア語詩の理解を大規模言語モデルで評価するための最初のベンチマークである。
このベンチマークは、意味的理解、比喩的解釈、韻律的認識、文化的文脈を評価するための説明付き詩のコーパスで構成されている。
- 参考スコア(独自算出の注目度): 32.247169514152425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arabic poetry is one of the richest and most culturally rooted forms of expression in the Arabic language, known for its layered meanings, stylistic diversity, and deep historical continuity. Although large language models (LLMs) have demonstrated strong performance across languages and tasks, their ability to understand Arabic poetry remains largely unexplored. In this work, we introduce \emph{Fann or Flop}, the first benchmark designed to assess the comprehension of Arabic poetry by LLMs in 12 historical eras, covering 14 core poetic genres and a variety of metrical forms, from classical structures to contemporary free verse. The benchmark comprises a curated corpus of poems with explanations that assess semantic understanding, metaphor interpretation, prosodic awareness, and cultural context. We argue that poetic comprehension offers a strong indicator for testing how good the LLM understands classical Arabic through Arabic poetry. Unlike surface-level tasks, this domain demands deeper interpretive reasoning and cultural sensitivity. Our evaluation of state-of-the-art LLMs shows that most models struggle with poetic understanding despite strong results on standard Arabic benchmarks. We release "Fann or Flop" along with the evaluation suite as an open-source resource to enable rigorous evaluation and advancement for Arabic language models. Code is available at: https://github.com/mbzuai-oryx/FannOrFlop.
- Abstract(参考訳): アラビア語の詩は、アラビア語で最も豊かで文化的に根ざした表現の1つであり、その層的な意味、様式的な多様性、深い歴史的連続性で知られている。
大きな言語モデル(LLM)は言語やタスクにまたがって強いパフォーマンスを示しているが、アラビア語の詩を理解する能力はほとんど解明されていない。
本研究では,古典的構造から現代自由詩まで,14の詩ジャンルと様々なメートル法形式を網羅し,12つの歴史的時代におけるLLMによるアラビア語詩の理解を評価するために設計された最初のベンチマークである 'emph{Fann or Flop} を紹介する。
このベンチマークは、意味的理解、比喩的解釈、韻律的認識、文化的文脈を評価するための説明付き詩のコーパスで構成されている。
我々は、詩的な理解は、LLMがアラビア詩を通じて古典アラビア語をいかに理解するかをテストする強力な指標であると主張している。
表面レベルのタスクとは異なり、このドメインはより深い解釈的推論と文化的な感受性を必要とする。
LLMの評価は、ほとんどのモデルは、標準的なアラビア語のベンチマークで強い結果が得られたにもかかわらず、詩的な理解に苦慮していることを示している。
アラビア語モデルの厳格な評価と進歩を可能にするために、オープンソースのリソースとして評価スイートとともに"Fann or Flop"をリリースする。
コードは、https://github.com/mbzuai-oryx/FannOrFlop.comで入手できる。
関連論文リスト
- Poem Meter Classification of Recited Arabic Poetry: Integrating High-Resource Systems for a Low-Resource Task [6.562541994801405]
アラビア語の詩は、言語学から何十年にもわたって大きな注目を集めてきた。
詩のメーターを特定することは長く複雑なプロセスである。
我々は、暗唱されたアラビア詩の詩のメーターを特定するための最先端の枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-16T15:25:45Z) - Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。
機械翻訳には形式的な構造が欠如しているため、大きな課題がある。
本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文 参考訳(メタデータ) (2025-02-28T11:37:52Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Ashaar: Automatic Analysis and Generation of Arabic Poetry Using Deep
Learning Approaches [7.021140304091526]
本稿では,アラビア詩の分析・生成に特化して設計されたデータセットと事前学習モデルの集合を含むtextitAshaar というフレームワークを紹介する。
提案手法で確立されたパイプラインは, メーター, テーマ, 年代分類など, 詩の様々な側面を包含する。
この取り組みの一環として、詩生成のためのデータセットと、診断のためのデータセットと、Arudiスタイルの予測のためのデータセットを4つ提供します。
論文 参考訳(メタデータ) (2023-07-12T15:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。