論文の概要: Measuring Massive Multitask Language Understanding
- arxiv url: http://arxiv.org/abs/2009.03300v3
- Date: Tue, 12 Jan 2021 18:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:04:21.317355
- Title: Measuring Massive Multitask Language Understanding
- Title(参考訳): 大規模マルチタスク言語理解の測定
- Authors: Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika,
Dawn Song, Jacob Steinhardt
- Abstract要約: このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
- 参考スコア(独自算出の注目度): 79.6985576698597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new test to measure a text model's multitask accuracy. The test
covers 57 tasks including elementary mathematics, US history, computer science,
law, and more. To attain high accuracy on this test, models must possess
extensive world knowledge and problem solving ability. We find that while most
recent models have near random-chance accuracy, the very largest GPT-3 model
improves over random chance by almost 20 percentage points on average. However,
on every one of the 57 tasks, the best models still need substantial
improvements before they can reach expert-level accuracy. Models also have
lopsided performance and frequently do not know when they are wrong. Worse,
they still have near-random accuracy on some socially important subjects such
as morality and law. By comprehensively evaluating the breadth and depth of a
model's academic and professional understanding, our test can be used to
analyze models across many tasks and to identify important shortcomings.
- Abstract(参考訳): テキストモデルのマルチタスク精度を測定するための新しいテストを提案する。
このテストは、初等数学、アメリカ史、コンピュータ科学、法律など、57のタスクをカバーする。
このテストで高い精度を達成するためには、モデルは広範な世界知識と問題解決能力を持つ必要がある。
近年のモデルではほぼランダム率の精度が高いが、最大のgpt-3モデルは平均で20ポイント近い確率でランダム確率を改善できることがわかった。
しかし、57タスクのすべてにおいて、最高のモデルには、専門家レベルの精度に到達する前に、かなりの改善が必要である。
モデルは性能も劣悪であり、いつ間違っているか分からないことが多い。
さらに悪いことに、道徳や法のような社会的に重要な主題について、いまだにほぼランダムな正確さを持っている。
モデルの学術的および専門的な理解の幅と深さを包括的に評価することにより、我々のテストは、多くのタスクにわたるモデルを分析し、重要な欠点を特定するのに使用できる。
関連論文リスト
- Lawma: The Power of Specialization for Legal Tasks [18.45967769381101]
我々は260の法的テキスト分類タスクを研究し、ほぼ全て機械学習コミュニティに新しい。
軽量で微調整されたLlama 3モデルは、通常2桁のパーセンテージポイントで、ほぼ全てのタスクにおいてGPT-4をはるかに上回る。
より大型のモデルの方が、より小型のモデルよりも微調整に反応することがわかった。
論文 参考訳(メタデータ) (2024-07-23T16:23:04Z) - Changing Answer Order Can Decrease MMLU Accuracy [18.774650080306944]
広範に使われている複数選択質問応答データセットMMLUにおける精度測定の堅牢性について検討する。
回答ラベルの内容をシャッフルすると、すべてのモデルがMMLUの精度を低下させるが、全てのモデルが等しく敏感であるわけではない。
論文 参考訳(メタデータ) (2024-06-27T18:21:32Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Measuring Massive Multitask Chinese Understanding [16.41629318344805]
この試験は、医学、法学、心理学、教育の4つの主要な領域を含む。
ゼロショット設定における最高のパフォーマンスモデルは、最悪のパフォーマンスモデルよりも平均18.6ポイント向上した。
全てのモデルは法域では性能が悪く、高いゼロショット精度は0.239にしか達しなかった。
論文 参考訳(メタデータ) (2023-04-25T16:51:53Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Boosting a Model Zoo for Multi-Task and Continual Learning [15.110807414130923]
モデル動物園」はモデルのアンサンブルを構築するアルゴリズムであり、それぞれが非常に小さく、小さなタスクセットで訓練されている。
モデルZooは,マルチタスクおよび連続学習における最先端手法と比較して,予測精度が大きく向上する。
論文 参考訳(メタデータ) (2021-06-06T04:25:09Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。