論文の概要: C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2405.17732v1
- Date: Tue, 28 May 2024 01:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:51:42.242381
- Title: C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models
- Title(参考訳): C$^{3}$Bench: 大規模言語モデルのための包括的古典中国語理解ベンチマーク
- Authors: Jiahuan Cao, Yongxin Shi, Dezhi Peng, Yang Liu, Lianwen Jin,
- Abstract要約: 古典中国語理解(CCU)は、中国の卓越した文化の保存と探索に重要な価値を持っている。
大規模言語モデル(LLM)のCCU機能を評価するための包括的なベンチマークはない。
C$3$benchは、分類、検索、名前付きエンティティ認識、句読点、翻訳を含む5つの主要なCCUタスクに対して50,000のテキストペアで構成されている。
- 参考スコア(独自算出の注目度): 37.44940836273018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical Chinese Understanding (CCU) holds significant value in preserving and exploration of the outstanding traditional Chinese culture. Recently, researchers have attempted to leverage the potential of Large Language Models (LLMs) for CCU by capitalizing on their remarkable comprehension and semantic capabilities. However, no comprehensive benchmark is available to assess the CCU capabilities of LLMs. To fill this gap, this paper introduces C$^{3}$bench, a Comprehensive Classical Chinese understanding benchmark, which comprises 50,000 text pairs for five primary CCU tasks, including classification, retrieval, named entity recognition, punctuation, and translation. Furthermore, the data in C$^{3}$bench originates from ten different domains, covering most of the categories in classical Chinese. Leveraging the proposed C$^{3}$bench, we extensively evaluate the quantitative performance of 15 representative LLMs on all five CCU tasks. Our results not only establish a public leaderboard of LLMs' CCU capabilities but also gain some findings. Specifically, existing LLMs are struggle with CCU tasks and still inferior to supervised models. Additionally, the results indicate that CCU is a task that requires special attention. We believe this study could provide a standard benchmark, comprehensive baselines, and valuable insights for the future advancement of LLM-based CCU research. The evaluation pipeline and dataset are available at \url{https://github.com/SCUT-DLVCLab/C3bench}.
- Abstract(参考訳): 古典中国語理解(CCU)は、中国の卓越した文化の保存と探索に重要な価値を持っている。
近年,CCUにおけるLarge Language Models (LLMs) の可能性を活用しようと試みている。
しかし、LLMのCCU機能を評価するための包括的なベンチマークは提供されていない。
このギャップを埋めるために、C$^{3}$benchは、分類、検索、名前付きエンティティ認識、句読点、翻訳を含む5つの主要なCCUタスクに対して50,000のテキストペアからなる、包括的古典中国語理解ベンチマークである。
さらに、C$^{3}$benchのデータは10の異なる領域から生まれ、古典中国語のカテゴリの大半をカバーしている。
提案した C$^{3}$bench を用いて,5つのCCU タスクすべてに対する15の代表的な LLM の定量的性能を広範囲に評価した。
LLMのCCU機能の公開リーダボードを確立するだけでなく,いくつかの知見を得た。
具体的には、既存のLLMはCCUタスクに苦戦しており、教師付きモデルに劣っている。
さらに、CCUは特別な注意を要するタスクであることを示す。
この研究は、LCMベースのCCU研究の将来的な進歩のための標準ベンチマーク、包括的ベースライン、および貴重な洞察を提供することができると信じている。
評価パイプラインとデータセットは \url{https://github.com/SCUT-DLVCLab/C3bench} で公開されている。
関連論文リスト
- TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models [35.361577129600676]
古典中国語は古代中国の豊かな遺産と知恵の入り口であるが、その複雑さは重大な理解障壁となっている。
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
本稿は,CCU 固有の LLM である textbfTongGu を提案する。
論文 参考訳(メタデータ) (2024-07-04T13:52:23Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.30878214336444]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。
GPT-4の評価能力の95%を回復する中国専用評価器LLMであるCritiqueLLMによるAlignBenchの評価を報告する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large
Language Models [17.562961249150295]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。
ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。
ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文 参考訳(メタデータ) (2023-08-28T06:56:44Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文 参考訳(メタデータ) (2020-04-13T15:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。