論文の概要: MasalBench: A Benchmark for Contextual and Cross-Cultural Understanding of Persian Proverbs in LLMs
- arxiv url: http://arxiv.org/abs/2601.22050v1
- Date: Thu, 29 Jan 2026 17:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.06241
- Title: MasalBench: A Benchmark for Contextual and Cross-Cultural Understanding of Persian Proverbs in LLMs
- Title(参考訳): MasalBench: LLMにおけるペルシャ語プロバーブの文脈的および文化的理解のためのベンチマーク
- Authors: Ghazal Kalhor, Behnam Bahrak,
- Abstract要約: MasalBenchは、ペルシア語の証明に対する大規模言語モデルの理解を評価するためのベンチマークである。
The-the-the-the-art LLMs on MasalBench and found that they good performance in identify Persian prorbs in context。
文化的知識と類推的推論における現在のLLMの限界について考察した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, multilingual Large Language Models (LLMs) have become an inseparable part of daily life, making it crucial for them to master the rules of conversational language in order to communicate effectively with users. While previous work has evaluated LLMs' understanding of figurative language in high-resource languages, their performance in low-resource languages remains underexplored. In this paper, we introduce MasalBench, a comprehensive benchmark for assessing LLMs' contextual and cross-cultural understanding of Persian proverbs, which are a key component of conversation in this low-resource language. We evaluate eight state-of-the-art LLMs on MasalBench and find that they perform well in identifying Persian proverbs in context, achieving accuracies above 0.90. However, their performance drops considerably when tasked with identifying equivalent English proverbs, with the best model achieving 0.79 accuracy. Our findings highlight the limitations of current LLMs in cultural knowledge and analogical reasoning, and they provide a framework for assessing cross-cultural understanding in other low-resource languages. MasalBench is available at https://github.com/kalhorghazal/MasalBench.
- Abstract(参考訳): 近年,多言語大言語モデル (LLM) は日常生活の分離不能な部分となっているため,ユーザとのコミュニケーションを効果的に行うために,会話言語のルールを習得することが重要である。
従来の研究は、LLMが高リソース言語における比喩的言語を理解することを評価してきたが、低リソース言語におけるそれらの性能はいまだに解明されていない。
本稿では,この低リソース言語における会話の重要な要素であるペルシャの文脈的・異文化的な理解を評価するための総合ベンチマークであるMacholBenchを紹介する。
The-the-the-the-art LLMs on MasalBench and found they be good in identify Persian prorbs in context, achieved accuracies over 0.90。
しかし、それらの性能は同等の英語の証明を識別するタスクをこなすと大幅に低下し、最良のモデルは0.79の精度を達成した。
本研究は,文化知識と類推的推論における現在のLLMの限界に注目し,他の低リソース言語における異文化間の理解を評価するための枠組みを提供する。
MasalBenchはhttps://github.com/kalhorghazal/MasalBench.comで入手できる。
関連論文リスト
- In-context Language Learning for Endangered Languages in Speech Recognition [15.294500162002345]
In-context Learning (ICL) を用いて,大規模言語モデル (LLM) が未知の低リソース言語を学習できるかどうかを検討する。
ICLは、これらの言語に特化して訓練された専用言語モデルに匹敵する、あるいは超越したASR性能を実現することができることを示す。
論文 参考訳(メタデータ) (2025-05-26T18:38:59Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [26.88208349402451]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である
我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。
MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-27T17:41:54Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。