論文の概要: Intrinsic Knowledge Evaluation on Chinese Language Models
- arxiv url: http://arxiv.org/abs/2011.14277v1
- Date: Sun, 29 Nov 2020 04:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:05:23.689901
- Title: Intrinsic Knowledge Evaluation on Chinese Language Models
- Title(参考訳): 中国語モデルの内在的知識評価
- Authors: Zhiruo Wang, Renfen Hu
- Abstract要約: 本稿では, 統語的, 意味的, 常識的, 事実的知識の4つの課題について, 合計39,308ドルの質問に集約する。
我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明されている。
- 参考スコア(独自算出の注目度): 5.293979881130493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent NLP tasks have benefited a lot from pre-trained language models (LM)
since they are able to encode knowledge of various aspects. However, current LM
evaluations focus on downstream performance, hence lack to comprehensively
inspect in which aspect and to what extent have they encoded knowledge. This
paper addresses both queries by proposing four tasks on syntactic, semantic,
commonsense, and factual knowledge, aggregating to a total of $39,308$
questions covering both linguistic and world knowledge in Chinese. Throughout
experiments, our probes and knowledge data prove to be a reliable benchmark for
evaluating pre-trained Chinese LMs. Our work is publicly available at
https://github.com/ZhiruoWang/ChnEval.
- Abstract(参考訳): 最近のNLPタスクは、様々な側面の知識をエンコードできるため、事前訓練された言語モデル(LM)から多くの恩恵を受けている。
しかし、現在のLM評価は下流のパフォーマンスに重点を置いているため、どの側面とどの程度の知識をコード化しているかを包括的に検査することができない。
本稿では,中国語における言語知識と世界知識の両方を網羅する合計39,308ドルの質問に対して,構文,意味,常識,事実知識の4つのタスクを提案する。
実験を通して、我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明された。
私たちの作品はhttps://github.com/ZhiruoWang/ChnEval.comで公開されています。
関連論文リスト
- Benchmarking Chinese Knowledge Rectification in Large Language Models [43.9841600678381]
本稿では,大言語モデルにおける中国語の知識を知識編集により修正するためのベンチマークを提案する。
我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、様々な情報源から7種類の知識を収集します。
このデータセットの分析を通して、中国語を習得する上で現在LLMが直面している課題を明らかにする。
論文 参考訳(メタデータ) (2024-09-09T17:11:51Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。