論文の概要: AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large
Language Models
- arxiv url: http://arxiv.org/abs/2403.06574v1
- Date: Mon, 11 Mar 2024 10:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:33:54.847953
- Title: AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large
Language Models
- Title(参考訳): ac-eval: 大言語モデルによる古代中国語理解の評価
- Authors: Yuting Wei, Yuanxing Xu, Xinru Wei, Simin Yang, Yangfu Zhu, Yuqing Li,
Di Liu, Bin Wu
- Abstract要約: AC-EVALは、大規模言語モデル(LLM)の高度な知識と推論能力を評価するために設計されたベンチマークである。
このベンチマークは歴史的事実、地理、社会慣習、芸術、哲学、古典詩、散文を含む13のタスクで構成されている。
英語と中国語の両方に合わせた最高性能LLMの評価は、古代のテキスト理解を向上する大きな可能性を示唆している。
- 参考スコア(独自算出の注目度): 15.490610582567543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the importance of ancient Chinese in capturing the essence of rich
historical and cultural heritage, the rapid advancements in Large Language
Models (LLMs) necessitate benchmarks that can effectively evaluate their
understanding of ancient contexts. To meet this need, we present AC-EVAL, an
innovative benchmark designed to assess the advanced knowledge and reasoning
capabilities of LLMs within the context of ancient Chinese. AC-EVAL is
structured across three levels of difficulty reflecting different facets of
language comprehension: general historical knowledge, short text understanding,
and long text comprehension. The benchmark comprises 13 tasks, spanning
historical facts, geography, social customs, art, philosophy, classical poetry
and prose, providing a comprehensive assessment framework. Our extensive
evaluation of top-performing LLMs, tailored for both English and Chinese,
reveals a substantial potential for enhancing ancient text comprehension. By
highlighting the strengths and weaknesses of LLMs, AC-EVAL aims to promote
their development and application forward in the realms of ancient Chinese
language education and scholarly research. The AC-EVAL data and evaluation code
are available at https://github.com/yuting-wei/AC-EVAL.
- Abstract(参考訳): 古代中国語が豊かな歴史的・文化的遺産の本質を捉える上で重要であることを考えると、大規模言語モデル(LLM)の急速な進歩は、古代の文脈に対する理解を効果的に評価できるベンチマークを必要とする。
このニーズを満たすために,我々は,古代中国語の文脈においてLLMの高度な知識と推論能力を評価するために設計された,革新的なベンチマークであるAC-EVALを提案する。
AC-EVALは、一般的な歴史的知識、短いテキスト理解、長いテキスト理解という、異なる言語理解の側面を反映する3つの難易度で構成されている。
このベンチマークは、歴史的事実、地理、社会慣習、芸術、哲学、古典詩、散文にまたがる13のタスクで構成され、包括的な評価フレームワークを提供する。
英語と中国語の両方に適合したLLMの広範な評価は、古代のテキスト理解を向上する大きな可能性を秘めている。
llmの強みと弱みを強調することで、ac-evalは古代中国語教育と学術研究の領域での開発と応用を促進することを目指している。
AC-EVALのデータと評価コードはhttps://github.com/yuting-wei/AC-EVALで公開されている。
関連論文リスト
- HistoLens: An LLM-Powered Framework for Multi-Layered Analysis of Historical Texts -- A Case Application of Yantie Lun [0.43512163406552007]
HistoLensは、Large Language Models (LLMs)に基づく歴史的テキストのための多層解析フレームワークである。
HistoLensは、名前付きエンティティ認識、知識グラフの構築、地理情報可視化など、NLP技術を統合している。
本稿は,多次元・視覚的・定量的手法を用いて,ヒストレンスが「ヤンティー・ルン」の西漢文化を探索する方法について述べる。
論文 参考訳(メタデータ) (2024-11-15T06:21:13Z) - Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models [9.761584874383873]
大規模言語モデルのアライメント能力を測定するために設計された,中国初の教育価値評価ベンチマークであるEdu-Valuesを提案する。
我々は,複数の選択,多モーダルな質問応答,主観的分析,敵対的プロンプト,伝統的な中国文化に関する質問など,1,418の質問を慎重に設計・コンパイルする。
教育文化の相違により、中国語のLLMは英語のLLMを大きく上回り、Qwen 2は81.37でランクインした。
論文 参考訳(メタデータ) (2024-09-19T13:02:54Z) - CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs [43.13805428301468]
大規模言語モデル(LLM)における言語的・事実的・論理的誤りの訂正を目的とした,中国初の知識編集データセットであるCKnowEditを紹介する。
我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、幅広い情報源から7種類の知識を収集します。
このデータセットを解析することにより、中国語を習得する上で、現在のLLMが直面する課題を強調します。
論文 参考訳(メタデータ) (2024-09-09T17:11:51Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE [23.598825660594926]
ACLUEは、古代中国語を解釈する際の言語モデルの能力を評価するために設計された評価ベンチマークである。
現代中国語と古代中国語の演奏に顕著な相違が見られた。
ChatGLM2は最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
論文 参考訳(メタデータ) (2023-10-14T10:06:39Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for
Foundation Models [58.42279750824907]
C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。
C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。
我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
論文 参考訳(メタデータ) (2023-05-15T03:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。