Fugu-MT 論文翻訳(概要): TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models

論文の概要: TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models

arxiv url: http://arxiv.org/abs/2602.22827v1
Date: Thu, 26 Feb 2026 10:08:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.640089
Title: TARAZ: Persian Short-Answer Question Benchmark for Cultural Evaluation of Language Models
Title（参考訳）: TARAZ: 言語モデルの文化的評価のためのペルシャ語質問ベンチマーク
Authors: Reihaneh Iranmanesh, Saeedeh Davoudi, Pasha Abrishamchian, Ophir Frieder, Nazli Goharian,
Abstract要約: 本稿では,ペルシャ語における大規模言語モデル(LLM)の文化的能力を評価するための包括的評価枠組みを提案する。本フレームワークでは,規則に基づく形態素正規化と複合構文および意味的類似性モジュールを組み合わせたペルシャ語固有の短解法評価を導入する。
参考スコア（独自算出の注目度）: 10.191206917633503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents a comprehensive evaluation framework for assessing the cultural competence of large language models (LLMs) in Persian. Existing Persian cultural benchmarks rely predominantly on multiple-choice formats and English-centric metrics that fail to capture Persian's morphological complexity and semantic nuance. Our framework introduces a Persian-specific short-answer evaluation that combines rule-based morphological normalization with a hybrid syntactic and semantic similarity module, enabling robust soft-match scoring beyond exact string overlap. Through systematic evaluation of 15 state-of-the-art open- and closed-source models, we demonstrate that our hybrid evaluation improves scoring consistency by +10% compared to exact-match baselines by capturing meaning that surface-level methods cannot detect. We publicly release our evaluation framework, providing the first standardized benchmark for measuring cultural understanding in Persian and establishing a reproducible foundation for cross-cultural LLM evaluation research.
Abstract（参考訳）: 本稿では,ペルシャ語における大規模言語モデル(LLM)の文化的能力を評価するための包括的評価枠組みを提案する。既存のペルシア文化のベンチマークは、ペルシャの形態的複雑さと意味的なニュアンスを捉えるのに失敗した複数の選択形式と英語中心のメトリクスに大きく依存している。本フレームワークでは,規則に基づく形態素正規化とハイブリッド構文および意味的類似性モジュールを組み合わせたペルシャ固有のショートアンサー評価を導入し,厳密なソフトマッチスコアリングを実現する。本研究では,15種類の最先端オープンソースモデルとクローズドソースモデルの体系的評価により,曲面レベルの手法では検出できない意味を捉えることにより,精度を10%向上させることを示した。我々は,ペルシャ語における文化的理解を測定するための最初の標準ベンチマークと,多文化LCM評価研究のための再現可能な基盤を確立するための評価枠組みを公開している。

関連論文リスト

AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。 AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文参考訳（メタデータ） (2026-01-21T07:35:36Z)
On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文参考訳（メタデータ） (2026-01-09T22:01:56Z)
CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs [24.598338950728234]
大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
論文参考訳（メタデータ） (2025-11-15T03:39:13Z)
Evaluating Cultural Knowledge Processing in Large Language Models: A Cognitive Benchmarking Framework Integrating Retrieval-Augmented Generation [3.141716989847573]
本研究では,大規模言語モデル(LLM)がどのように処理し,文化的に特異的な知識を適用するかを評価するための認知的ベンチマークフレームワークを提案する。このフレームワークはブルームの分類とRAG(Retrieval-Augmented Generation)を統合し、6つの階層的認知領域にわたるモデルパフォーマンスを評価する。
論文参考訳（メタデータ） (2025-11-03T15:04:23Z)
I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文参考訳（メタデータ） (2025-10-15T05:10:57Z)
Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文参考訳（メタデータ） (2025-03-20T04:26:40Z)
PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。 PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文参考訳（メタデータ） (2025-02-11T11:07:44Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。