論文の概要: Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective
- arxiv url: http://arxiv.org/abs/2306.10512v2
- Date: Sat, 28 Oct 2023 13:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:13:56.296518
- Title: Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective
- Title(参考訳): LLMの認知能力を効果的に測定する:適応的テストの観点から
- Authors: Yan Zhuang, Qi Liu, Yuting Ning, Weizhe Huang, Rui Lv, Zhenya Huang,
Guanhao Zhao, Zheng Zhang, Qingyang Mao, Shijin Wang, Enhong Chen
- Abstract要約: 大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
- 参考スコア(独自算出の注目度): 63.92197404447808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), like ChatGPT, have shown some human-like
cognitive abilities. For comparing these abilities of different models, several
benchmarks (i.e. sets of standard test questions) from different fields (e.g.,
Literature, Biology and Psychology) are often adopted and the test results
under traditional metrics such as accuracy, recall and F1, are reported.
However, such way for evaluating LLMs can be inefficient and inaccurate from
the cognitive science perspective. Inspired by Computerized Adaptive Testing
(CAT) used in psychometrics, we propose an adaptive testing framework for LLM
evaluation. Rather than using a standard test set and simply reporting
accuracy, this approach dynamically adjusts the characteristics of the test
questions, such as difficulty, based on the model's performance. This allows
for a more accurate estimation of the model's abilities, using fewer questions.
More importantly, it allows LLMs to be compared with humans easily, which is
essential for NLP models that aim for human-level ability. Our diagnostic
reports have found that ChatGPT often behaves like a ``careless student'',
prone to slip and occasionally guessing the questions. We conduct a
fine-grained diagnosis and rank the latest 6 instruction-tuned LLMs from three
aspects of Subject Knowledge, Mathematical Reasoning, and Programming, where
GPT4 can outperform other models significantly and reach the cognitive ability
of middle-level students. Different tests for different models using efficient
adaptive testing -- we believe this has the potential to become a new norm in
evaluating large language models.
- Abstract(参考訳): ChatGPTのような大型言語モデル(LLM)は、人間に似た認知能力を示している。
これらの異なるモデルの能力を比較するために、異なる分野(文学、生物学、心理学など)のいくつかのベンチマーク(標準テスト質問の組)がしばしば採用され、精度、リコール、f1などの伝統的な指標によるテスト結果が報告されている。
しかし、LCMの評価方法は認知科学の観点から非効率で不正確である。
心理測定に使用されるCAT(Computerized Adaptive Testing)にヒントを得て,LLM評価のための適応テストフレームワークを提案する。
標準的なテストセットを使用し、単に精度を報告するのではなく、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
これにより、より少ない質問を使ってモデルの能力をより正確に推定できる。
さらに重要なのは、LLMを人間と簡単に比較できることであり、人間レベルの能力を目指すNLPモデルに必須である。
診断報告によると、ChatGPTは「不注意な学生」のように振る舞うことが多く、時折質問を推測する傾向がある。
対象知識,数学的推論,プログラミングの3つの側面から,gpt4が他のモデルを大幅に上回ることができ,中学生の認知能力に到達できる,詳細な診断を行い,最新の6つの指導調整llmをランク付けした。
効率的な適応テストを使った異なるモデルの異なるテスト -- 私たちは、これは大きな言語モデルを評価するための新しい規範になる可能性があると信じています。
関連論文リスト
- Human-Calibrated Automated Testing and Validation of Generative Language Models [3.2855317710497633]
本稿では,ジェネレーティブ言語モデル(GLM)の評価と検証のための包括的枠組みを提案する。
銀行などの高額な領域に展開される検索・拡張世代(RAG)システムに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T13:53:36Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Adaptive Testing Environment Generation for Connected and Automated
Vehicles with Dense Reinforcement Learning [7.6589102528398065]
複数のサロゲートモデルを組み込んだアダプティブテスト環境を構築する。
そこで本研究では,高効率な高密度強化学習手法を提案し,新しい適応政策を考案する。
論文 参考訳(メタデータ) (2024-02-29T15:42:33Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。