論文の概要: Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective
- arxiv url: http://arxiv.org/abs/2306.10512v2
- Date: Sat, 28 Oct 2023 13:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:13:56.296518
- Title: Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective
- Title(参考訳): LLMの認知能力を効果的に測定する:適応的テストの観点から
- Authors: Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Rui Lv, Zhenya Huang,
Guanhao Zhao, Zheng Zhang, Qingyang Mao, Shijin Wang, Enhong Chen
- Abstract要約: 大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
- 参考スコア(独自算出の注目度): 63.92197404447808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), like ChatGPT, have shown some human-like
cognitive abilities. For comparing these abilities of different models, several
benchmarks (i.e. sets of standard test questions) from different fields (e.g.,
Literature, Biology and Psychology) are often adopted and the test results
under traditional metrics such as accuracy, recall and F1, are reported.
However, such way for evaluating LLMs can be inefficient and inaccurate from
the cognitive science perspective. Inspired by Computerized Adaptive Testing
(CAT) used in psychometrics, we propose an adaptive testing framework for LLM
evaluation. Rather than using a standard test set and simply reporting
accuracy, this approach dynamically adjusts the characteristics of the test
questions, such as difficulty, based on the model's performance. This allows
for a more accurate estimation of the model's abilities, using fewer questions.
More importantly, it allows LLMs to be compared with humans easily, which is
essential for NLP models that aim for human-level ability. Our diagnostic
reports have found that ChatGPT often behaves like a ``careless student'',
prone to slip and occasionally guessing the questions. We conduct a
fine-grained diagnosis and rank the latest 6 instruction-tuned LLMs from three
aspects of Subject Knowledge, Mathematical Reasoning, and Programming, where
GPT4 can outperform other models significantly and reach the cognitive ability
of middle-level students. Different tests for different models using efficient
adaptive testing -- we believe this has the potential to become a new norm in
evaluating large language models.
- Abstract(参考訳): ChatGPTのような大型言語モデル(LLM)は、人間に似た認知能力を示している。
これらの異なるモデルの能力を比較するために、異なる分野(文学、生物学、心理学など)のいくつかのベンチマーク(標準テスト質問の組)がしばしば採用され、精度、リコール、f1などの伝統的な指標によるテスト結果が報告されている。
しかし、LCMの評価方法は認知科学の観点から非効率で不正確である。
心理測定に使用されるCAT(Computerized Adaptive Testing)にヒントを得て,LLM評価のための適応テストフレームワークを提案する。
標準的なテストセットを使用し、単に精度を報告するのではなく、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
これにより、より少ない質問を使ってモデルの能力をより正確に推定できる。
さらに重要なのは、LLMを人間と簡単に比較できることであり、人間レベルの能力を目指すNLPモデルに必須である。
診断報告によると、ChatGPTは「不注意な学生」のように振る舞うことが多く、時折質問を推測する傾向がある。
対象知識,数学的推論,プログラミングの3つの側面から,gpt4が他のモデルを大幅に上回ることができ,中学生の認知能力に到達できる,詳細な診断を行い,最新の6つの指導調整llmをランク付けした。
効率的な適応テストを使った異なるモデルの異なるテスト -- 私たちは、これは大きな言語モデルを評価するための新しい規範になる可能性があると信じています。
関連論文リスト
- Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Adaptive Language-based Mental Health Assessment with Item-Response
Theory [7.801208784626191]
適応型言語に基づく評価(Adaptive Language-based Assessment)は,モデルが問うべき質問に対する限られた言語応答に基づいて,個人の心理的スコアを反復的に推定するタスクである。
適応テストは一般に高い妥当性を達成するのに必要な質問の数を大幅に削減できることがわかった。
どちらのモデルもランダムな順序付けや固定順序付けよりも大幅に改善されているが、ALIRTはより少ない質問数で最高の精度を達成できるスケーラブルなモデルである。
論文 参考訳(メタデータ) (2023-11-11T03:37:17Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Models of reference production: How do they withstand the test of time? [6.651864489482537]
本研究では,文脈の参照表現を生成するタスクをケーススタディとして使用し,GRECから分析を開始する。
より現実的なデータセットでモデルを評価すれば、モデルのパフォーマンスはどうなるのか、私たちは尋ねます。
我々は、GRECは、人間の参照生産を模倣するモデルの能力に対する信頼性の高い評価を提供するものではないと結論付けている。
論文 参考訳(メタデータ) (2023-07-27T12:46:38Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - Classifier Data Quality: A Geometric Complexity Based Method for
Automated Baseline And Insights Generation [4.722075132982135]
主な課題は、モデルの精度や分類器のF1スコアなどの誤りのレベルが受け入れられるかどうかを決定することである。
我々は、与えられた観測が真のクラスラベルに割り当てるのがいかに困難であるかを定量化する複雑性測定法を開発した。
これらの尺度は、線形計算コストに対して、各観測の分類複雑性を説明可能な形で定量化するという点において、ベストプラクティスのベースラインよりも優れている。
論文 参考訳(メタデータ) (2021-12-22T12:17:08Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Quality meets Diversity: A Model-Agnostic Framework for Computerized
Adaptive Testing [60.38182654847399]
コンピュータ適応テスト(CAT)は多くのシナリオで有望なテストアプリケーションとして現れています。
CAT ソリューションのための新しいフレームワークである Model-Agnostic Adaptive Testing (MAAT) を提案する。
論文 参考訳(メタデータ) (2021-01-15T06:48:50Z) - Monotonicity in practice of adaptive testing [0.0]
本稿では,最近提案された単調性勾配アルゴリズムを用いて学習した適応テストのためのベイジアンネットワークモデルについて検討する。
手法の質は、チェコ国立数学試験の大規模なデータセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-09-15T10:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。