Fugu-MT 論文翻訳(概要): KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models

論文の概要: KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2604.17621v1
Date: Sun, 19 Apr 2026 21:18:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.605532
Title: KnowledgeBerg: Evaluating Systematic Knowledge Coverage and Compositional Reasoning in Large Language Models
Title（参考訳）: KnowledgeBerg:大規模言語モデルにおける体系的知識被覆と構成推論の評価
Authors: Xiao Zhang, Qianru Meng, Yongjian Chen, Yumeng Wang, Johan Bos,
Abstract要約: 多くの現実世界の質問は、一見単純だが暗黙的に2つの能力を要求するように見える。我々は、知識の幅、必要な宇宙の濃度、推論の深さという2つの次元でこの課題を定式化する。我々は10のドメインと17の言語にまたがる1,183の列挙シードから4,800の多重選択質問のベンチマークであるKnowledgeBergを紹介した。
参考スコア（独自算出の注目度）: 8.584257473147568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many real-world questions appear deceptively simple yet implicitly demand two capabilities: (i) systematic coverage of a bounded knowledge universe and (ii) compositional set-based reasoning over that universe, a phenomenon we term "the tip of the iceberg." We formalize this challenge through two orthogonal dimensions: knowledge width, the cardinality of the required universe, and reasoning depth, the number of compositional set operations. We introduce KnowledgeBerg, a benchmark of 4,800 multiple-choice questions derived from 1,183 enumeration seeds spanning 10 domains and 17 languages, with universes grounded in authoritative sources to ensure reproducibility. Representative open-source LLMs demonstrate severe limitations, achieving only 5.26-36.88 F1 on universe enumeration and 16.00-44.19 accuracy on knowledge-grounded reasoning. Diagnostic analyses reveal three stages of failure: completeness, or missing knowledge; awareness, or failure to identify requirements; and application, or incorrect reasoning execution. This pattern persists across languages and model scales. Although test-time compute and retrieval augmentation yield measurable gains -- up to 4.35 and 3.78 points, respectively -- substantial gaps remain, exposing limitations in how current LLMs organize structured knowledge and execute compositional reasoning over bounded domains. The dataset is available at https://huggingface.co/datasets/2npc/KnowledgeBerg
Abstract（参考訳）: 多くの現実世界の質問は、一見単純だが暗黙的に2つの能力を要求するように見える。一有界知識宇宙及び有界知識宇宙の体系的網羅 (II)その宇宙に関する構成的集合に基づく推論、すなわち「氷山の一角」という現象。我々はこの挑戦を、2つの直交次元、すなわち知識の幅、必要宇宙の濃度、および論理的深さ、構成的集合演算の数で定式化する。我々は、10のドメインと17の言語にまたがる1,183の列挙シードから4,800の多重選択質問のベンチマークであるKnowledgeBergを紹介した。オープンソースのLCMは厳しい限界を示し、宇宙列挙では5.26-36.88 F1、知識基底推論では16.00-44.19の精度しか達成していない。診断分析は、完全性、または知識の欠如、認識、要求の特定の失敗、適用、または誤った推論実行の3つの失敗の段階を明らかにする。このパターンは言語やモデルスケールにまたがって持続する。テストタイムの計算と検索の増大は、それぞれ4.35ポイントと3.78ポイントまで測定可能なゲインをもたらすが、大きなギャップが残っており、現在のLLMが構造化知識を整理し、境界領域上で構成的推論を実行する方法の限界が明らかになっている。データセットはhttps://huggingface.co/datasets/2npc/KnowledgeBergで公開されている。

関連論文リスト

MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。 MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。 MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文参考訳（メタデータ） (2025-08-09T06:21:10Z)
OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases [38.58409057214189]
textbftextscOneEvalは、LLM(Large Language Models)の知識集約推論能力を評価するベンチマークである。 textscOneEvalは、慎重にキュレートされた4,019のインスタンスで構成され、特に難しいケースが1,285である、挑戦的なサブセットであるtextscOneEvaltextsubscriptHardを含んでいる。我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textscOneEvalデータセット、評価スクリプト、ベースライン結果を公開した。
論文参考訳（メタデータ） (2025-06-14T17:16:05Z)
Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文参考訳（メタデータ） (2025-03-19T15:21:48Z)
Knowledge Boundary of Large Language Models: A Survey [75.67848187449418]
大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。これは、LLMの知識境界を理解するための重要な必要性を強調している。本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
論文参考訳（メタデータ） (2024-12-17T02:14:02Z)
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
ChroKnowBenchは、時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットである。 ChroKnowledgeは、LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースのフレームワークである。 ChroKnowPrompt(クロクノウプロンプト)は、周囲の時間帯をステップバイステップで移動することで、時系列の知識を引き出すための奥行きである。
論文参考訳（メタデータ） (2024-10-13T15:08:49Z)
Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文参考訳（メタデータ） (2023-10-02T15:43:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。