論文の概要: FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.18359v1
- Date: Mon, 29 Apr 2024 01:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 15:06:26.124907
- Title: FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models
- Title(参考訳): FoundaBench: 大規模言語モデルの中国語基本知識能力の評価
- Authors: Wei Li, Ren Ma, Jiang Wu, Chenya Gu, Jiahui Peng, Jinyang Len, Songyang Zhang, Hang Yan, Dahua Lin, Conghui He,
- Abstract要約: 本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
- 参考スコア(独自算出の注目度): 64.11333762954283
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the burgeoning field of large language models (LLMs), the assessment of fundamental knowledge remains a critical challenge, particularly for models tailored to Chinese language and culture. This paper introduces FoundaBench, a pioneering benchmark designed to rigorously evaluate the fundamental knowledge capabilities of Chinese LLMs. FoundaBench encompasses a diverse array of 3354 multiple-choice questions across common sense and K-12 educational subjects, meticulously curated to reflect the breadth and depth of everyday and academic knowledge. We present an extensive evaluation of 12 state-of-the-art LLMs using FoundaBench, employing both traditional assessment methods and our CircularEval protocol to mitigate potential biases in model responses. Our results highlight the superior performance of models pre-trained on Chinese corpora, and reveal a significant disparity between models' reasoning and memory recall capabilities. The insights gleaned from FoundaBench evaluations set a new standard for understanding the fundamental knowledge of LLMs, providing a robust framework for future advancements in the field.
- Abstract(参考訳): 大型言語モデル (LLMs) の急成長する分野において、基礎知識の評価は、特に中国語や文化に合わせたモデルにとって重要な課題である。
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
FoundaBenchは、常識やK-12の教科にまたがる多様な3354の質問を包含しており、日常的・学術的な知識の広さと深さを巧みに反映している。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
FoundaBenchの評価から得られた洞察は、LLMの基本的な知識を理解するための新しい標準を設定し、この分野における将来の進歩のための堅牢なフレームワークを提供する。
関連論文リスト
- Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models [9.761584874383873]
大規模言語モデルのアライメント能力を測定するために設計された,中国初の教育価値評価ベンチマークであるEdu-Valuesを提案する。
我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。
教育文化の相違により、中国語のLLMは英語のLLMを大きく上回り、Qwen 2は81.37でランクインした。
論文 参考訳(メタデータ) (2024-09-19T13:02:54Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - A Survey of Knowledge-Intensive NLP with Pre-Trained Language Models [185.08295787309544]
我々は、事前訓練された言語モデルに基づく知識強化モデル(PLMKEs)の現在の進歩を要約することを目的としている。
本論では,3つの要素に関する議論に基づくPLMKEの課題について述べるとともに,NLP実践者にさらなる研究の道筋を示そうとしている。
論文 参考訳(メタデータ) (2022-02-17T17:17:43Z) - Unsupervised Commonsense Question Answering with Self-Talk [71.63983121558843]
本稿では,コモンセンスタスクの代替として,セルフトークに基づく教師なしフレームワークを提案する。
探索に基づく探索学習にインスパイアされた我々のアプローチは、質問を求める多くの情報で言語モデルに問い合わせる。
実験結果から,ゼロショット言語モデルベースラインの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-11T20:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。