論文の概要: Can the capability of Large Language Models be described by human ability? A Meta Study
- arxiv url: http://arxiv.org/abs/2504.12332v1
- Date: Sun, 13 Apr 2025 08:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:26.383328
- Title: Can the capability of Large Language Models be described by human ability? A Meta Study
- Title(参考訳): 大規模言語モデルの能力は人間の能力によって説明できるか? : メタスタディ
- Authors: Mingrui Zan, Yunquan Zhang, Boyang Zhang, Fangming Liu, Daning Cheng,
- Abstract要約: 37の評価ベンチマークで80以上のモデルのパフォーマンスデータを収集しました。
我々は, パラメータが100億未満の LLM のある種の機能について, 実際に記述できることを確認した。
一部の能力は人間では相互に関連があると考えられているが、LLMではほとんど関係がないように見える。
- 参考スコア(独自算出の注目度): 10.516198272048488
- License:
- Abstract: Users of Large Language Models (LLMs) often perceive these models as intelligent entities with human-like capabilities. However, the extent to which LLMs' capabilities truly approximate human abilities remains a topic of debate. In this paper, to characterize the capabilities of LLMs in relation to human capabilities, we collected performance data from over 80 models across 37 evaluation benchmarks. The evaluation benchmarks are categorized into 6 primary abilities and 11 sub-abilities in human aspect. Then, we then clustered the performance rankings into several categories and compared these clustering results with classifications based on human ability aspects. Our findings lead to the following conclusions: 1. We have confirmed that certain capabilities of LLMs with fewer than 10 billion parameters can indeed be described using human ability metrics; 2. While some abilities are considered interrelated in humans, they appear nearly uncorrelated in LLMs; 3. The capabilities possessed by LLMs vary significantly with the parameter scale of the model.
- Abstract(参考訳): LLM(Large Language Models)のユーザは、これらのモデルを人間のような能力を持つインテリジェントなエンティティとして認識することが多い。
しかし、LLMの能力が人間の能力にどの程度近いかは議論の的となっている。
本稿では,LLMの能力と人的能力を特徴付けるため,37評価ベンチマークにおいて80モデル以上の性能データを収集した。
評価ベンチマークは、6つのプライマリ能力と11のサブ能力に分類される。
次に、パフォーマンスランキングをいくつかのカテゴリに分類し、これらのクラスタリング結果を、人間の能力的側面に基づく分類と比較した。
以上の結果から以下の結論が導かれる。
1 LLMのパラメータが100億未満の能力は、実際に人間の能力測定値を用いて記述できることを確認した。
2. 能力は人間と相互に関連していると考えられるが、LLMではほとんど関係がないように見える。
3) LLMの持つ能力はモデルのパラメータスケールによって大きく異なる。
関連論文リスト
- The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks [17.5336703613751]
本研究は、ウェクスラー成人インテリジェンス尺度(WAIS-IV)における大規模言語モデルと視覚言語モデルと人間のパフォーマンスに対するベンチマークである。
ほとんどのモデルは、文字や数字の任意のシーケンスのようなトークンの保存、検索、操作において例外的な機能を示した。
これらの長所にもかかわらず、我々はマルチモーダルモデルから知覚推論指標(PRI)の性能が一貫して劣っていることを観察した。
論文 参考訳(メタデータ) (2024-10-09T19:22:26Z) - Law of the Weakest Link: Cross Capabilities of Large Language Models [102.91861246827797]
我々は,Large Language Models (LLMs) が "Law of the Weakest Link" を示すことを示した。
これらの結果は, クロスキャパビリティタスクにおけるLLMの低性能化を浮き彫りにした。
論文 参考訳(メタデータ) (2024-09-30T05:12:01Z) - Human-like object concept representations emerge naturally in multimodal large language models [24.003766123531545]
大規模言語モデルにおける対象概念の表現が人間とどのように関連しているかを明らかにするために,行動解析と神経画像解析を併用した。
その結果,66次元の埋め込みは非常に安定で予測的であり,人間の心的表現に類似したセマンティッククラスタリングが認められた。
本研究は、機械知能の理解を深め、より人間的な人工知能システムの開発を知らせるものである。
論文 参考訳(メタデータ) (2024-07-01T08:17:19Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Evidence of interrelated cognitive-like capabilities in large language models: Indications of artificial general intelligence or achievement? [0.0]
大規模言語モデル (LLM) は、人工知能(AI)システムであり、人間の知能テストで一般的に見られる様々なタスクを実行できる。
また,テストスコアが正の相関を示すかどうかを検討した。
正の多様体と能力の一般因子の強い経験的証拠を発見した。
論文 参考訳(メタデータ) (2023-10-17T22:42:12Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。