論文の概要: Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language?
- arxiv url: http://arxiv.org/abs/2404.06644v1
- Date: Tue, 9 Apr 2024 22:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:59:05.397494
- Title: Khayyam Challenge (PersianMMLU): Is Your LLM Truly Wise to The Persian Language?
- Title(参考訳): Khayyam Challenge (PersianMMLU):あなたのLLMはペルシア語に真に結びついているか?
- Authors: Omid Ghahroodi, Marzia Nouri, Mohammad Vali Sanian, Alireza Sahebi, Doratossadat Dastgheib, Ehsaneddin Asgari, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban,
- Abstract要約: ハヤム・チャレンジ(Khayyam Challenge、ペルシア語MMLU)は、ペルシアの試験から抽出された38の多様なタスクから得られた20,192の4つの質問のコレクションである。
Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
- 参考スコア(独自算出の注目度): 3.4812080203308984
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating Large Language Models (LLMs) is challenging due to their generative nature, necessitating precise evaluation methodologies. Additionally, non-English LLM evaluation lags behind English, resulting in the absence or weakness of LLMs for many languages. In response to this necessity, we introduce Khayyam Challenge (also known as PersianMMLU), a meticulously curated collection comprising 20,192 four-choice questions sourced from 38 diverse tasks extracted from Persian examinations, spanning a wide spectrum of subjects, complexities, and ages. The primary objective of the Khayyam Challenge is to facilitate the rigorous evaluation of LLMs that support the Persian language. Distinctive features of the Khayyam Challenge are (i) its comprehensive coverage of various topics, including literary comprehension, mathematics, sciences, logic, intelligence testing, etc., aimed at assessing different facets of LLMs such as language comprehension, reasoning, and information retrieval across various educational stages, from lower primary school to upper secondary school (ii) its inclusion of rich metadata such as human response rates, difficulty levels, and descriptive answers (iii) its utilization of new data to avoid data contamination issues prevalent in existing frameworks (iv) its use of original, non-translated data tailored for Persian speakers, ensuring the framework is free from translation challenges and errors while encompassing cultural nuances (v) its inherent scalability for future data updates and evaluations without requiring special human effort. Previous works lacked an evaluation framework that combined all of these features into a single comprehensive benchmark. Furthermore, we evaluate a wide range of existing LLMs that support the Persian language, with statistical analyses and interpretations of their outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、その生成性から困難であり、正確な評価手法を必要とする。
加えて、英語以外のLLM評価は英語より遅れており、多くの言語でLLMが欠落または弱体化している。
この必要性に応えて,ペルシャ試験から抽出した38の多種多様なタスクから抽出された20,192の4つのチョイスからなる精巧にキュレートされたコレクションであるKhayyam Challenge(ペルシャMMLU)を紹介した。
Khayyam Challengeの主な目的は、ペルシア語をサポートするLLMの厳格な評価を促進することである。
Khayyam Challengeの独特な特徴は何か
一 文学的理解、数学、科学、論理学、知能試験等を含む様々な話題を包括的に網羅し、中学から中学までの様々な教育段階における言語理解、推論、情報検索等のLCMの異なる側面を評価することを目的とする。
二 人的反応率、難易度、説明解答等の豊富なメタデータを含むこと。
三 既存の枠組みにおけるデータ汚染問題を避けるための新しいデータの利用
(四)ペルシア語話者向けに調整された原文の非翻訳データを使用することにより、文化的なニュアンスを包含しながら翻訳上の課題や誤りを解消する。
(v) 特別な人的努力を必要とせず、将来のデータ更新と評価に固有のスケーラビリティ。
以前の作業では、これらの機能をすべてひとつの包括的なベンチマークにまとめる評価フレームワークが欠如していた。
さらに,ペルシャ語をサポートする既存のLLMを,統計的解析と解釈により評価した。
関連論文リスト
- Évaluation des capacités de réponse de larges modèles de langage (LLM) pour des questions d'historiens [0.0]
ChatGPTやBardのような大規模言語モデル(LLM)は情報検索に革命をもたらした。
我々は,フランス語における歴史的事実に関する信頼性,包括的,かつ十分に関連する応答を生み出す上で,様々なLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-21T14:19:57Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。
このリッチ言語で利用可能なNLUデータセットは少ない。
ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文 参考訳(メタデータ) (2020-12-11T06:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。