論文の概要: Measuring Massive Multitask Chinese Understanding
- arxiv url: http://arxiv.org/abs/2304.12986v1
- Date: Tue, 25 Apr 2023 16:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 19:37:29.022338
- Title: Measuring Massive Multitask Chinese Understanding
- Title(参考訳): 大規模マルチタスク中国語理解の測定
- Authors: Hui Zeng
- Abstract要約: この試験は、医学、法学、心理学、教育の4つの主要な領域を含む。
ゼロショット設定における最高のパフォーマンスモデルでは、最悪のパフォーマンスモデルが平均で22ポイント近く向上した。
全てのモデルは法域では性能が悪く、高いゼロショット精度は0.259にしか達しなかった。
- 参考スコア(独自算出の注目度): 16.41629318344805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large-scale Chinese language models is flourishing, yet
there is a lack of corresponding capability assessments. Therefore, we propose
a test to measure the multitask accuracy of large Chinese language models. This
test encompasses four major domains, including medicine, law, psychology, and
education, with 15 subtasks in medicine and 8 subtasks in education. We found
that the best-performing models in the zero-shot setting outperformed the
worst-performing models by nearly 22 percentage points on average. Across the
four major domains, the average zero-shot accuracy of all models did not exceed
0.5. In the subdomains, only the GPT-3.5-turbo model achieved a zero-shot
accuracy of 0.703 in clinical medicine, which was the highest accuracy among
all models across all subtasks. All models performed poorly in the legal
domain, with the highest zero-shot accuracy reaching only 0.259. By
comprehensively evaluating the breadth and depth of knowledge across multiple
disciplines, this test can more accurately identify the shortcomings of the
models.
- Abstract(参考訳): 大規模な中国語モデルの開発は盛んであるが、それに対応する能力評価が不足している。
そこで本研究では,大規模中国語モデルのマルチタスク精度を計測するテストを提案する。
このテストは、医学、法学、心理学、教育を含む4つの主要な領域を含み、15のサブタスクと8のサブタスクがある。
その結果、ゼロショット設定における最高のパフォーマンスモデルは、最悪のパフォーマンスモデルよりも平均22ポイント向上した。
4つの主要領域全体で、全てのモデルの平均ゼロショット精度は0.5を超えなかった。
サブドメインでは、gpt-3.5-turboモデルのみが臨床医学において0.703のゼロショット精度を達成した。
すべてのモデルは法律領域で性能が悪く、最高ゼロショット精度は0.259にしか達しなかった。
複数の分野にわたる知識の幅と深さを包括的に評価することにより、このテストはモデルの欠点をより正確に識別することができる。
関連論文リスト
- A Comprehensive Evaluation of Large Language Models on Mental Illnesses [0.8458496687170665]
GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。
素早いエンジニアリングは モデル性能を高める上で 重要な役割を担った
有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
論文 参考訳(メタデータ) (2024-09-24T02:58:52Z) - A Comprehensive Evaluation of Histopathology Foundation Models for Ovarian Cancer Subtype Classification [1.9499122087408571]
病理組織学の基礎モデルは、多くのタスクにまたがる大きな約束を示している。
これまでで最も厳格な単一タスクによる病理組織学的基盤モデルの検証を報告した。
病理組織学的基盤モデルは卵巣がんの亜型化に明確な利益をもたらす。
論文 参考訳(メタデータ) (2024-05-16T11:21:02Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - MultiCQA: Zero-Shot Transfer of Self-Supervised Text Matching Models on
a Massive Scale [64.11709427403008]
テキストマッチングモデルのゼロショット転送能力を大規模に検討し,140個のソースドメイン上での自己教師型トレーニングを行った。
すべての140モデルが驚くほどうまく転送され、ほとんどのモデルが一般的なIRベースラインより大幅に優れています。
論文 参考訳(メタデータ) (2020-10-02T13:22:12Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。