論文の概要: OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking
- arxiv url: http://arxiv.org/abs/2511.08598v1
- Date: Fri, 31 Oct 2025 16:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.068386
- Title: OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking
- Title(参考訳): OKBench: 完全自動化,オンデマンド,オープンな知識ベンチマークによるLCM評価の民主化
- Authors: Yanhong Li, Tianyang Xu, Kenan Tang, Karen Livescu, David McAllester, Jiawei Zhou,
- Abstract要約: OKBenchは、ベンチマークのソーシング、作成、検証、配布を自動化するエージェントフレームワークである。
これらの結果から,新たな情報に直面する場合のモデル行動が明らかになり,小型モデルと大規模モデルのパフォーマンスギャップがいかに狭まるかが明らかになった。
- 参考スコア(独自算出の注目度): 47.579237867766686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge-intensive question answering is central to large language models (LLMs) and is typically assessed using static benchmarks derived from sources like Wikipedia and textbooks. However, these benchmarks fail to capture evolving knowledge in a dynamic world, and centralized curation struggles to keep pace with rapid LLM advancements. To address these drawbacks, we propose Open Knowledge Bench (OKBench), a fully automated framework for generating high-quality, dynamic knowledge benchmarks on demand. Focusing on the news domain where knowledge updates daily, OKBench is an agentic framework that automates the sourcing, creation, validation, and distribution of benchmarks. Our approach democratizes benchmark creation and facilitates thorough evaluation of retrieval-augmented methods by reducing overlap with pretraining data. We evaluate our framework on a wide range open-source and proprietary LLMs of various sizes and configurations, both with and without retrieval over freshly generated knowledge. Our results reveal distinct model behaviors when confronted with new information and highlight how retrieval narrows the performance gap between small and large models. These findings underscore the importance of evaluating LLMs on evolving knowledge benchmarks.
- Abstract(参考訳): 知識集約的な質問応答は大きな言語モデル(LLM)の中心であり、典型的にはウィキペディアや教科書などの情報源から派生した静的ベンチマークを用いて評価される。
しかし、これらのベンチマークは動的世界の進化する知識を捉えることができず、中央集権的なキュレーションはLLMの急速な進歩とペースを維持するのに苦労する。
これらの欠点に対処するため、我々は要求に応じて高品質で動的な知識ベンチマークを生成するための完全に自動化されたフレームワークであるOpen Knowledge Bench (OKBench)を提案する。
知識が毎日更新されるニュースドメインに注目して、OKBenchは、ベンチマークのソーシング、作成、検証、配布を自動化するエージェントフレームワークである。
提案手法は,ベンチマーク作成を民主化し,事前学習データとの重複を低減し,検索強化手法の徹底的な評価を容易にする。
我々は,新たに生成した知識を検索することなく,さまざまなサイズと構成の,幅広いオープンソースおよびプロプライエタリなLLM上で,我々のフレームワークを評価した。
これらの結果から,新たな情報に直面する場合のモデル行動が明らかになり,小型モデルと大規模モデルのパフォーマンスギャップがいかに狭まるかが明らかになった。
これらの知見は、LLMを進化的知識ベンチマークで評価することの重要性を浮き彫りにした。
関連論文リスト
- OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG [32.31189584872992]
一般に、検索された情報は、その質問に関連していると仮定される。
回答生成における検索情報の関連性を考慮することが重要である。
我々は,検索した情報の明示的な評価を,生成のための品質指標として活用する新しい手法であるOpenDecoderを提案する。
論文 参考訳(メタデータ) (2026-01-13T23:26:30Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - DEEPQUESTION: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance [3.9770095824794516]
私たちは、Bloomの分類に基づいて既存のデータセットを拡張するスケーラブルな自動化フレームワークであるDeepQuestionを紹介します。
我々は,高次タスクにおいて高い性能低下(最大70%の精度低下)を示し,深い推論において持続的なギャップを減らした。
論文 参考訳(メタデータ) (2025-05-30T12:39:42Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - DyKnow: Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs [1.7764955091415962]
本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。
筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。
以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T18:08:59Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。