論文の概要: Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements
- arxiv url: http://arxiv.org/abs/2512.24867v2
- Date: Tue, 06 Jan 2026 09:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.35969
- Title: Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements
- Title(参考訳): Encyclo-K:動的に構成された知識文を用いたLLMの評価
- Authors: Yiming Liang, Yizhi Li, Yantao Du, Ge Zhang, Jiayi Zhou, Yuchen Wu, Yinzhu Piao, Denghui Cao, Tong Sun, Ziniu Li, Li Du, Bo Lei, Jiaheng Liu, Chenghua Lin, Zhaoxiang Zhang, Wenhao Huang, Jiajun Zhang,
- Abstract要約: 既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
- 参考スコア(独自算出の注目度): 78.87065404966002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks play a crucial role in tracking the rapid advancement of large language models (LLMs) and identifying their capability boundaries. However, existing benchmarks predominantly curate questions at the question level, suffering from three fundamental limitations: vulnerability to data contamination, restriction to single-knowledge-point assessment, and reliance on costly domain expert annotation. We propose Encyclo-K, a statement-based benchmark that rethinks benchmark construction from the ground up. Our key insight is that knowledge statements, not questions, can serve as the unit of curation, and questions can then be constructed from them. We extract standalone knowledge statements from authoritative textbooks and dynamically compose them into evaluation questions through random sampling at test time. This design directly addresses all three limitations: the combinatorial space is too vast to memorize, and model rankings remain stable across dynamically generated question sets, enabling reliable periodic dataset refresh; each question aggregates 8-10 statements for comprehensive multi-knowledge assessment; annotators only verify formatting compliance without requiring domain expertise, substantially reducing annotation costs. Experiments on over 50 LLMs demonstrate that Encyclo-K poses substantial challenges with strong discriminative power. Even the top-performing OpenAI-GPT-5.1 achieves only 62.07% accuracy, and model performance displays a clear gradient distribution--reasoning models span from 16.04% to 62.07%, while chat models range from 9.71% to 50.40%. These results validate the challenges introduced by dynamic evaluation and multi-statement comprehensive understanding. These findings establish Encyclo-K as a scalable framework for dynamic evaluation of LLMs' comprehensive understanding over multiple fine-grained disciplinary knowledge statements.
- Abstract(参考訳): ベンチマークは、大規模言語モデル(LLM)の急速な進歩を追跡し、それらの機能境界を特定する上で重要な役割を果たす。
しかし、既存のベンチマークは、データ汚染の脆弱性、単一知識ポイント評価の制限、高価なドメインエキスパートアノテーションへの依存という3つの基本的な制限に悩まされている。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
私たちの重要な洞察は、知識ステートメントは、質問ではなく、キュレーションの単位として機能し、それらから質問を構築することができるということです。
我々は権威教科書から独立した知識文を抽出し、試験時間におけるランダムサンプリングによる評価質問に動的に構成する。
この設計は直に3つの制限に対処する: 組合せ空間は記憶するには大きすぎるし、モデルのランク付けは動的に生成された質問セット間で安定し、信頼できる周期的なデータセット更新を可能にする; 各質問は包括的なマルチ知識評価のために8-10のステートメントを集約する; アノテーションはドメインの専門知識を必要とせず、コンプライアンスを検証し、アノテーションのコストを大幅に削減する。
50以上のLLMの実験では、Encyclo-Kは強力な識別力を持つ重大な課題を提起している。
最高パフォーマンスのOpenAI-GPT-5.1でさえ62.07%の精度しか達成せず、モデル性能は16.04%から62.07%の範囲で、チャットモデルは9.71%から50.40%である。
これらの結果は、動的評価とマルチステートメントの包括的理解によってもたらされる課題を検証する。
これらの知見は,複数の微粒な学際的知識ステートメントに対するLLMの包括的理解を動的に評価するためのスケーラブルなフレームワークとして,Encyclo-Kを確立した。
関連論文リスト
- Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - Diagnosing and Addressing Pitfalls in KG-RAG Datasets: Toward More Reliable Benchmarking [63.84117489519164]
知識グラフ質問 回答システムは、複雑なマルチホップ推論を評価するために高品質なベンチマークに依存している。
広く使われているにもかかわらず、WebQSPやCWQのような一般的なデータセットは、重要な品質問題に悩まされている。
我々はこれらの落とし穴を体系的に解決するLLM-in-the-loopフレームワークであるKGQAGenを紹介する。
本研究は,KGQA評価を推し進めるスケーラブルなフレームワークとして,より厳密なベンチマーク構築とKGQAGenの位置づけを提唱する。
論文 参考訳(メタデータ) (2025-05-29T14:44:52Z) - SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。
詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。
また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文 参考訳(メタデータ) (2025-05-12T05:43:21Z) - Sequential-NIAH: A Needle-In-A-Haystack Benchmark for Extracting Sequential Needles from Long Contexts [20.901983944214532]
本研究では,長期の文脈から逐次情報を抽出する大規模言語モデルの能力を評価するためのベンチマークであるSequential-NIAHを紹介する。
ベンチマークには3つの針生成パイプラインが含まれている: 合成時間、実時間、実時間、実時間、コンテキストの長さは8Kから128Kである。
我々は6つのよく知られたLCM実験を行い、最も優れたモデルでさえ、このベンチマークのテストセットで63.50%の最大精度を達成できたことを明らかにした。
論文 参考訳(メタデータ) (2025-04-07T03:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。