論文の概要: Evaluating the Unseen Capabilities: How Many Theorems Do LLMs Know?
- arxiv url: http://arxiv.org/abs/2506.02058v1
- Date: Sun, 01 Jun 2025 15:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.885372
- Title: Evaluating the Unseen Capabilities: How Many Theorems Do LLMs Know?
- Title(参考訳): 未知の能力を評価する: LLMが知っている理論はいくつあるか?
- Authors: Xiang Li, Jiayi Xin, Qi Long, Weijie J. Su,
- Abstract要約: 未知の知識を定量化することによって、より包括的な評価を提供するために設計された統計フレームワークであるKnowSumを紹介する。
KnowSumは、観測された知識インスタンスの頻度の出現から外挿することで、観測されていない部分を推定する。
実験の結果,観測されたLLMの性能にのみ依存する場合,かなりの量の知識が省略されることが判明した。
- 参考スコア(独自算出の注目度): 27.743708975564214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate evaluation of large language models (LLMs) is crucial for understanding their capabilities and guiding their development. However, current evaluations often inconsistently reflect the actual capacities of these models. In this paper, we demonstrate that one of many contributing factors to this \textit{evaluation crisis} is the oversight of unseen knowledge -- information encoded by LLMs but not directly observed or not yet observed during evaluations. We introduce KnowSum, a statistical framework designed to provide a more comprehensive assessment by quantifying the unseen knowledge for a class of evaluation tasks. KnowSum estimates the unobserved portion by extrapolating from the appearance frequencies of observed knowledge instances. We demonstrate the effectiveness and utility of KnowSum across three critical applications: estimating total knowledge, evaluating information retrieval effectiveness, and measuring output diversity. Our experiments reveal that a substantial volume of knowledge is omitted when relying solely on observed LLM performance. Importantly, KnowSum yields significantly different comparative rankings for several common LLMs based on their internal knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)の正確な評価は,その能力を理解し,開発を導く上で重要である。
しかし、現在の評価は、しばしばこれらのモデルの実際の容量を不整合的に反映している。
本稿では,この「textit{evaluation crisis」に寄与する要因の1つとして,LLMによって符号化されているが,評価中に直接観察されていない,あるいはまだ観察されていない,未知の知識の監視があげられる。
評価課題のクラスに対する未知の知識を定量化することにより、より包括的な評価を提供するために設計された統計フレームワークであるKnowSumを紹介する。
KnowSumは、観測された知識インスタンスの出現頻度から外挿することで、観測されていない部分を推定する。
本稿では,全知識の推定,情報検索の有効性の評価,出力の多様性の測定という3つの重要な応用にまたがって,KnowSumの有効性と有用性を示す。
実験の結果,観測されたLLMの性能にのみ依存する場合,かなりの量の知識が省略されることが判明した。
重要な点として、KnowSumは内部知識に基づいて、いくつかの共通LLMの比較ランキングを著しく異なるものにしている。
関連論文リスト
- How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。