論文の概要: Beyond Questions: Evaluating What Large Language Models (Actually) Know
- arxiv url: http://arxiv.org/abs/2605.26937v1
- Date: Tue, 26 May 2026 12:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.084331
- Title: Beyond Questions: Evaluating What Large Language Models (Actually) Know
- Title(参考訳): 質問を超えて: 大規模言語モデル(現実)が知っているものを評価する
- Authors: Luca Giordano, Simon Razniewski,
- Abstract要約: 知識ベンチマークのための新しいパラダイムであるオープンナレッジ評価を導入する。
狭い質問をする代わりに、オープン・エンド・エコレーション・プロンプトに反応して、彼らが提示する知識のモデルを評価する。
このパラダイムを,文検証のための参照コーパスと組み合わせた1万のエンティティのベンチマークであるBeQuでインスタンス化する。
- 参考スコア(独自算出の注目度): 7.018070351055396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parametric knowledge in large language models (LLMs) is a cornerstone of their success, yet remains poorly understood. Existing knowledge benchmarks typically rely on predefined questions (e.g., "What is the birth date of M.L. King?"), evaluating only knowledge that benchmark designers explicitly choose to query, a problematic availability bias. In this paper, we introduce open knowledge evaluation, a new paradigm for LLM knowledge benchmarking. Instead of asking narrow questions, it evaluates models on the knowledge they choose to surface in response to open-ended elicitation prompts (e.g., "Tell me everything you know about M.L. King"). This shifts the focus from predefined answer retrieval toward characterizing the knowledge models naturally express. We instantiate this paradigm with BeQu (Beyond Questions), a benchmark of 10,000 entities paired with reference corpora for statement verification. Using BeQu, we evaluate a broad range of language models and analyze the effects of reasoning effort, model scale, prompt format, and knowledge domain. Data and leaderboard are available on this work's GitHub repository and at the benchmark's website.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるパラメトリック知識は、その成功の基盤であるが、まだ理解されていない。
既存の知識ベンチマークは通常、事前に定義された質問(例えば、M.L. Kingの生年月日は?)に依存し、ベンチマーク設計者がクエリを明示的に選択する知識のみを評価する。
本稿では,LLM知識ベンチマークの新しいパラダイムであるオープン知識評価を紹介する。
狭い質問をする代わりに、オープンエンドな誘惑のプロンプト(例えば「M.L.キングについて知っていることを全て教えてくれ」)に反応して、彼らが表に出ることを選んだ知識のモデルを評価する。
これは、あらかじめ定義された回答の検索から、自然に表現される知識モデルの特徴へと焦点を移す。
このパラダイムをBeQu (Beyond Questions) でインスタンス化します。
BeQuを用いて、幅広い言語モデルを評価し、推論作業、モデルスケール、プロンプトフォーマット、知識ドメインの効果を分析する。
データとリーダボードは、この作業のGitHubリポジトリとベンチマークのWebサイトから入手可能だ。
関連論文リスト
- Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。
DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。
本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T07:44:20Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。
具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文 参考訳(メタデータ) (2022-09-17T08:48:50Z) - Unsupervised Commonsense Question Answering with Self-Talk [71.63983121558843]
本稿では,コモンセンスタスクの代替として,セルフトークに基づく教師なしフレームワークを提案する。
探索に基づく探索学習にインスパイアされた我々のアプローチは、質問を求める多くの情報で言語モデルに問い合わせる。
実験結果から,ゼロショット言語モデルベースラインの性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-11T20:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。