Fugu-MT 論文翻訳(概要): GhazalBench: Usage-Grounded Evaluation of LLMs on Persian Ghazals

論文の概要: GhazalBench: Usage-Grounded Evaluation of LLMs on Persian Ghazals

arxiv url: http://arxiv.org/abs/2603.09979v1
Date: Fri, 06 Feb 2026 13:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-15 16:38:22.517268
Title: GhazalBench: Usage-Grounded Evaluation of LLMs on Persian Ghazals
Title（参考訳）: GhazalBench:ペルシアのGhazalsにおけるLCMの使用状況評価
Authors: Ghazal Kalhor, Yadollah Yaghoobzadeh,
Abstract要約: GhazalBenchは、大規模な言語モデルがペルシャのガザルとどのように相互作用するかを評価するベンチマークである。我々は一貫した解離を観察する: モデルは一般的に詩的な意味を捉えるが、完結した設定において正確な詩のリコールに苦慮する。本研究は,文化的に重要なテキストへの意味,形態,キューに依存したアクセスを共同評価する評価フレームワークの必要性を強調した。
参考スコア（独自算出の注目度）: 5.695664084679044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Persian poetry plays an active role in Iranian cultural practice, where verses by canonical poets such as Hafez are frequently quoted, paraphrased, or completed from partial cues. Supporting such interactions requires language models to engage not only with poetic meaning but also with culturally entrenched surface form. We introduce GhazalBench, a benchmark for evaluating how large language models (LLMs) interact with Persian ghazals under usage-grounded conditions. GhazalBench assesses two complementary abilities: producing faithful prose paraphrases of couplets and accessing canonical verses under varying semantic and formal cues. Across several proprietary and open-weight multilingual LLMs, we observe a consistent dissociation: models generally capture poetic meaning but struggle with exact verse recall in completion-based settings, while recognition-based tasks substantially reduce this gap. A parallel evaluation on English sonnets shows markedly higher recall performance, suggesting that these limitations are tied to differences in training exposure rather than inherent architectural constraints. Our findings highlight the need for evaluation frameworks that jointly assess meaning, form, and cue-dependent access to culturally significant texts. GhazalBench is available at https://github.com/kalhorghazal/GhazalBench.
Abstract（参考訳）: ペルシア詩はイランの文化的な実践において活発な役割を担い、ハフェズのような正統派の詩人による詩は、しばしば引用される、言い換えられる、あるいは部分的に引用される。このような相互作用をサポートするには、言語モデルが詩的な意味だけでなく、文化的に定着した表面形式にも関与する必要がある。 GhazalBenchは、大言語モデル(LLM)がペルシャ語ガザルとどのように相互作用するかを評価するためのベンチマークである。 GhazalBenchは2つの相補的な能力を評価している。複数のプロプライエタリかつオープンウェイトな多言語LLMにおいて、モデルが一般的に詩的な意味を捉えるが、完了ベースの設定では正確な詩のリコールに苦労する一方で、認識ベースのタスクは、このギャップを著しく減少させる。英語ソネットの並列評価は、リコール性能が著しく高く、これらの制限は、固有のアーキテクチャ制約ではなく、トレーニング露出の違いに結びついていることを示唆している。本研究は,文化的に重要なテキストへの意味,形態,キューに依存したアクセスを共同評価する評価フレームワークの必要性を強調した。 GhazalBenchはhttps://github.com/kalhorghazal/GhazalBench.comで入手できる。

関連論文リスト

TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models [10.191206917633503]
本稿では,ペルシャ語における大規模言語モデル(LLM)の文化的能力を評価するための包括的評価枠組みを提案する。本フレームワークでは,規則に基づく形態素正規化と複合構文および意味的類似性モジュールを組み合わせたペルシャ語固有の短解法評価を導入する。
論文参考訳（メタデータ） (2026-02-26T10:08:02Z)
Unmasking the Factual-Conceptual Gap in Persian Language Models [0.8180770164225369]
迷信と慣習に焦点をあてたベンチマークであるDivanBenchを導入し、単純な論理的推論に抵抗する任意の文脈依存ルールを紹介した。我々はペルシャのLLMを7つ評価し、3つの重大な障害を明らかにした。
論文参考訳（メタデータ） (2026-02-19T18:42:46Z)
AmharicStoryQA: A Multicultural Story Question Answering Benchmark in Amharic [25.361090310093072]
評価は一つの言語に存在する有意義な文化的変化を見落としていると論じる。アンハラ語話者の文化的多彩な物語に基づくベンチマークであるtextbftextitAmharicStoryQAを紹介する。
論文参考訳（メタデータ） (2026-02-02T20:28:19Z)
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文参考訳（メタデータ） (2025-09-27T16:27:36Z)
Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding in LLMs [32.247169514152425]
EmphFannまたはFlopは、アラビア語詩の理解を大規模言語モデルで評価するための最初のベンチマークである。このベンチマークは、意味的理解、比喩的解釈、韻律的認識、文化的文脈を評価するための説明付き詩のコーパスで構成されている。
論文参考訳（メタデータ） (2025-05-23T17:59:29Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文参考訳（メタデータ） (2023-05-23T23:45:20Z)
Metrical Tagging in the Wild: Building and Annotating Poetry Corpora with Rhythmic Features [0.0]
英語とドイツ語に大規模な詩コーパスを提供し,コーパス駆動ニューラルモデルを訓練するためのコーパスを小型化した韻律的特徴をアノテートする。音節埋め込みを用いた BiLSTM-CRF モデルは, CRF ベースラインと異なるBERT ベースアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2021-02-17T16:38:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。