論文の概要: OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking
- arxiv url: http://arxiv.org/abs/2511.08598v1
- Date: Fri, 31 Oct 2025 16:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.068386
- Title: OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking
- Title(参考訳): OKBench: 完全自動化,オンデマンド,オープンな知識ベンチマークによるLCM評価の民主化
- Authors: Yanhong Li, Tianyang Xu, Kenan Tang, Karen Livescu, David McAllester, Jiawei Zhou,
- Abstract要約: OKBenchは、ベンチマークのソーシング、作成、検証、配布を自動化するエージェントフレームワークである。
これらの結果から,新たな情報に直面する場合のモデル行動が明らかになり,小型モデルと大規模モデルのパフォーマンスギャップがいかに狭まるかが明らかになった。
- 参考スコア(独自算出の注目度): 47.579237867766686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-intensive question answering is central to large language models (LLMs) and is typically assessed using static benchmarks derived from sources like Wikipedia and textbooks. However, these benchmarks fail to capture evolving knowledge in a dynamic world, and centralized curation struggles to keep pace with rapid LLM advancements. To address these drawbacks, we propose Open Knowledge Bench (OKBench), a fully automated framework for generating high-quality, dynamic knowledge benchmarks on demand. Focusing on the news domain where knowledge updates daily, OKBench is an agentic framework that automates the sourcing, creation, validation, and distribution of benchmarks. Our approach democratizes benchmark creation and facilitates thorough evaluation of retrieval-augmented methods by reducing overlap with pretraining data. We evaluate our framework on a wide range open-source and proprietary LLMs of various sizes and configurations, both with and without retrieval over freshly generated knowledge. Our results reveal distinct model behaviors when confronted with new information and highlight how retrieval narrows the performance gap between small and large models. These findings underscore the importance of evaluating LLMs on evolving knowledge benchmarks.
- Abstract(参考訳): 知識集約的な質問応答は大きな言語モデル(LLM)の中心であり、典型的にはウィキペディアや教科書などの情報源から派生した静的ベンチマークを用いて評価される。
しかし、これらのベンチマークは動的世界の進化する知識を捉えることができず、中央集権的なキュレーションはLLMの急速な進歩とペースを維持するのに苦労する。
これらの欠点に対処するため、我々は要求に応じて高品質で動的な知識ベンチマークを生成するための完全に自動化されたフレームワークであるOpen Knowledge Bench (OKBench)を提案する。
知識が毎日更新されるニュースドメインに注目して、OKBenchは、ベンチマークのソーシング、作成、検証、配布を自動化するエージェントフレームワークである。
提案手法は,ベンチマーク作成を民主化し,事前学習データとの重複を低減し,検索強化手法の徹底的な評価を容易にする。
我々は,新たに生成した知識を検索することなく,さまざまなサイズと構成の,幅広いオープンソースおよびプロプライエタリなLLM上で,我々のフレームワークを評価した。
これらの結果から,新たな情報に直面する場合のモデル行動が明らかになり,小型モデルと大規模モデルのパフォーマンスギャップがいかに狭まるかが明らかになった。
これらの知見は、LLMを進化的知識ベンチマークで評価することの重要性を浮き彫りにした。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs [1.7764955091415962]
本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。
筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。
以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T18:08:59Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。