論文の概要: Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE
- arxiv url: http://arxiv.org/abs/2310.09550v1
- Date: Sat, 14 Oct 2023 10:06:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 19:40:49.957176
- Title: Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE
- Title(参考訳): 大言語モデルは古代中国語を補完できるのか?
ACLUEの予備試験
- Authors: Yixuan Zhang and Haonan Li
- Abstract要約: ACLUEは、古代中国語を解釈する際の言語モデルの能力を評価するために設計された評価ベンチマークである。
現代中国語と古代中国語の演奏に顕著な相違が見られた。
ChatGLM2は最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
- 参考スコア(独自算出の注目度): 23.598825660594926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have showcased remarkable capabilities in
understanding and generating language. However, their ability in comprehending
ancient languages, particularly ancient Chinese, remains largely unexplored. To
bridge this gap, we present ACLUE, an evaluation benchmark designed to assess
the capability of language models in comprehending ancient Chinese. ACLUE
consists of 15 tasks cover a range of skills, spanning phonetic, lexical,
syntactic, semantic, inference and knowledge. Through the evaluation of eight
state-of-the-art LLMs, we observed a noticeable disparity in their performance
between modern Chinese and ancient Chinese. Among the assessed models, ChatGLM2
demonstrates the most remarkable performance, achieving an average score of
37.4%. We have made our code and data public available.
- Abstract(参考訳): 大規模言語モデル(llm)は、言語の理解と生成において顕著な能力を示している。
しかし、古代言語、特に古代中国語の理解能力はほとんど未解明のままである。
このギャップを埋めるために、古代中国語を解釈する際の言語モデルの有効性を評価するための評価ベンチマークACLUEを提案する。
ACLUEは、音声、語彙、構文、意味、推論、知識など、様々なスキルをカバーする15のタスクで構成されている。
8つの最先端のllmの評価を通して、現代中国人と古代中国人の業績に明らかな差が見られた。
評価されたモデルの中で、ChatGLM2が最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
コードとデータを公開しました。
関連論文リスト
- Benchmarking Chinese Knowledge Rectification in Large Language Models [43.9841600678381]
本稿では,大言語モデルにおける中国語の知識を知識編集により修正するためのベンチマークを提案する。
我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、様々な情報源から7種類の知識を収集します。
このデータセットの分析を通して、中国語を習得する上で現在LLMが直面している課題を明らかにする。
論文 参考訳(メタデータ) (2024-09-09T17:11:51Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large
Language Models [15.490610582567543]
AC-EVALは、大規模言語モデル(LLM)の高度な知識と推論能力を評価するために設計されたベンチマークである。
このベンチマークは歴史的事実、地理、社会慣習、芸術、哲学、古典詩、散文を含む13のタスクで構成されている。
英語と中国語の両方に合わせた最高性能LLMの評価は、古代のテキスト理解を向上する大きな可能性を示唆している。
論文 参考訳(メタデータ) (2024-03-11T10:24:37Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Establishing Vocabulary Tests as a Benchmark for Evaluating Large
Language Models [2.7013338932521416]
我々は,大言語モデル(LLM)の性能を評価する貴重なツールとして,語彙テストの復活を提唱する。
2つの言語にまたがる2つの語彙テスト形式を用いて7つのLSMを評価し,その語彙的知識の驚くべきギャップを明らかにする。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。