論文の概要: FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models
- arxiv url: http://arxiv.org/abs/2504.14690v1
- Date: Sun, 20 Apr 2025 17:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:47:53.437941
- Title: FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models
- Title(参考訳): FarsEval-PKBETS:ペルシアの大規模言語モデルを評価するための新しい多様なベンチマーク
- Authors: Mehrnoush Shamsfard, Zahra Saaberi, Mostafa Karimi manesh, Seyed Mohammad Hossein Hashemi, Zahra Vatankhah, Motahareh Ramezani, Niki Pourazin, Tara Zare, Maryam Azimi, Sarina Chitsaz, Sama Khoraminejad, Morteza Mahdavi Mortazavi, Mohammad Mahdi Chizari, Sahar Maleki, Seyed Soroush Majd, Mostafa Masumi, Sayed Ali Musavi Khoeini, Amir Mohseni, Sogol Alipour,
- Abstract要約: 本稿では,ペルシア語における大規模言語モデルを評価するためのFarsEvalプロジェクトのサブセットであるFarsEval-PKBETSベンチマークを紹介する。
このベンチマークは4000の質問と、複数の選択、短い回答、記述的な応答を含む様々な形式の回答で構成されている。
医学、法律、宗教、ペルシア語、百科事典知識、人間の嗜好、社会知識、倫理と偏見、テキスト生成、他者の権利の尊重など幅広い分野やタスクをカバーしている。
- 参考スコア(独自算出の注目度): 0.5221124918965586
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Research on evaluating and analyzing large language models (LLMs) has been extensive for resource-rich languages such as English, yet their performance in languages such as Persian has received considerably less attention. This paper introduces FarsEval-PKBETS benchmark, a subset of FarsEval project for evaluating large language models in Persian. This benchmark consists of 4000 questions and answers in various formats, including multiple choice, short answer and descriptive responses. It covers a wide range of domains and tasks,including medicine, law, religion, Persian language, encyclopedic knowledge, human preferences, social knowledge, ethics and bias, text generation, and respecting others' rights. This bechmark incorporates linguistics, cultural, and local considerations relevant to the Persian language and Iran. To ensure the questions are challenging for current LLMs, three models -- Llama3-70B, PersianMind, and Dorna -- were evaluated using this benchmark. Their average accuracy was below 50%, meaning they provided fully correct answers to fewer than half of the questions. These results indicate that current language models are still far from being able to solve this benchmark
- Abstract(参考訳): 大規模言語モデル (LLM) の評価と分析に関する研究は、英語などの資源に富む言語で広く行われているが、ペルシア語などの言語では、その性能にはあまり注目されていない。
本稿では,ペルシア語における大規模言語モデルを評価するためのFarsEvalプロジェクトのサブセットであるFarsEval-PKBETSベンチマークを紹介する。
このベンチマークは4000の質問と、複数の選択、短い回答、記述的な応答を含む様々な形式の回答で構成されている。
医学、法律、宗教、ペルシア語、百科事典知識、人間の嗜好、社会知識、倫理と偏見、テキスト生成、他者の権利の尊重など、幅広い領域やタスクをカバーしている。
このビーチマークには、ペルシア語とイランに関する言語学、文化学、地域的な考察が含まれている。
現在のLLMで質問が難しいことを保証するため、このベンチマークを使用して、Llama3-70B、PerphaMind、Dornaの3つのモデルが評価された。
平均精度は50%未満であり、質問の半数未満に対して完全な正解を与えた。
これらの結果は、現在の言語モデルは、まだこのベンチマークを解くには程遠いことを示している。
関連論文リスト
- MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - The Qiyas Benchmark: Measuring ChatGPT Mathematical and Language Understanding in Arabic [0.0]
アラビア語におけるモデルの数学的推論と言語理解能力を評価するために設計された2つの新しいベンチマークを導入する。
これらのベンチマークは、サウジアラビアの大学入試に広く使用される標準化された試験であるカイヤス試験(英語版)と呼ばれる一般適性試験(GAT)に由来する。
論文 参考訳(メタデータ) (2024-06-28T16:34:31Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language? [3.4812080203308984]
ハヤム・チャレンジ(Khayyam Challenge、ペルシア語MMLU)は、ペルシアの試験から抽出された38の多様なタスクから得られた20,192の4つの質問のコレクションである。
Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
論文 参考訳(メタデータ) (2024-04-09T22:38:13Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。
このリッチ言語で利用可能なNLUデータセットは少ない。
ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文 参考訳(メタデータ) (2020-12-11T06:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。