論文の概要: SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs
- arxiv url: http://arxiv.org/abs/2507.17178v1
- Date: Wed, 23 Jul 2025 03:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.848956
- Title: SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs
- Title(参考訳): SKA-Bench: LLMの構造的知識理解評価のための細粒度ベンチマーク
- Authors: Zhiqiang Liu, Enpei Niu, Yin Hua, Mengshu Sun, Lei Liang, Huajun Chen, Wen Zhang,
- Abstract要約: 我々は、構造化知識強化QAベンチマークであるSKA-Benchを紹介し、KG、Table、KG+Text、Table+Textの4つの広く使われている構造化知識形式を含む。
SKA-Bench インスタンスの構築には,質問,回答,肯定的な知識ユニット,ノイズの多い知識ユニットを含む3段階のパイプラインを利用する。
LLMのSK理解能力を詳細に評価するため,ノイズロバスト性,秩序不感,情報統合,否定的拒絶の4つの基本能力テストベッドにインスタンスを拡張した。
- 参考スコア(独自算出の注目度): 29.88977150203991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have made significant progress in understanding Structured Knowledge (SK) like KG and Table, existing evaluations for SK understanding are non-rigorous (i.e., lacking evaluations of specific capabilities) and focus on a single type of SK. Therefore, we aim to propose a more comprehensive and rigorous structured knowledge understanding benchmark to diagnose the shortcomings of LLMs. In this paper, we introduce SKA-Bench, a Structured Knowledge Augmented QA Benchmark that encompasses four widely used structured knowledge forms: KG, Table, KG+Text, and Table+Text. We utilize a three-stage pipeline to construct SKA-Bench instances, which includes a question, an answer, positive knowledge units, and noisy knowledge units. To evaluate the SK understanding capabilities of LLMs in a fine-grained manner, we expand the instances into four fundamental ability testbeds: Noise Robustness, Order Insensitivity, Information Integration, and Negative Rejection. Empirical evaluations on 8 representative LLMs, including the advanced DeepSeek-R1, indicate that existing LLMs still face significant challenges in understanding structured knowledge, and their performance is influenced by factors such as the amount of noise, the order of knowledge units, and hallucination phenomenon. Our dataset and code are available at https://github.com/Lza12a/SKA-Bench.
- Abstract(参考訳): 大きな言語モデル(LLM)は、KGやTableのような構造化知識(SK)の理解に大きな進歩をもたらしたが、既存のSK理解の評価は厳密ではない(すなわち、特定の能力の評価に欠ける)。
そこで本研究では,LLMの欠点を診断するための,より包括的で厳密な構造化知識理解ベンチマークを提案する。
本稿では,KG,Table,KG+Text,Table+Textの4種類の構造化知識形式を含む構造化知識拡張QAベンチマークであるSKA-Benchを紹介する。
SKA-Bench インスタンスの構築には,質問,回答,肯定的な知識ユニット,ノイズの多い知識ユニットを含む3段階のパイプラインを利用する。
LLMのSK理解能力を詳細に評価するため,ノイズロバスト性,秩序不感,情報統合,否定的拒絶の4つの基本能力テストベッドにインスタンスを拡張した。
先進的なDeepSeek-R1を含む8つのLLMの実証評価は、既存のLLMは構造化知識を理解する上で重要な課題に直面しており、その性能はノイズの量、知識単位の順序、幻覚現象の影響を受けていることを示している。
データセットとコードはhttps://github.com/Lza12a/SKA-Bench.comから入手可能です。
関連論文リスト
- OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases [38.58409057214189]
textbftextscOneEvalは、LLM(Large Language Models)の知識集約推論能力を評価するベンチマークである。
textscOneEvalは、慎重にキュレートされた4,019のインスタンスで構成され、特に難しいケースが1,285である、挑戦的なサブセットであるtextscOneEvaltextsubscriptHardを含んでいる。
我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textscOneEvalデータセット、評価スクリプト、ベースライン結果を公開した。
論文 参考訳(メタデータ) (2025-06-14T17:16:05Z) - Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking [44.66045367454493]
本稿では,SKPパラダイムの一般化能力について,グラニュラリティ,トランスファービリティ,スケーラビリティ,普遍性という4つの視点から評価・再考することを目的とする。
我々は、粒度と難易度が異なる9つのタスクからなる、SUBARUと呼ばれる新しいマルチグラニュラー・マルチレベルベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-31T03:20:22Z) - Reasoning Factual Knowledge in Structured Data with Large Language Models [26.00548862629018]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な進歩を遂げている。
構造化データには、事前学習に使われる非構造化テキストとは異なる独特の特徴がある。
本研究では,LLMの構造的推論能力を評価するためにStructFactというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-22T08:05:09Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs [55.317267269115845]
Chain-of-Knowledge (CoK)は知識推論のための包括的なフレームワークである。
CoKにはデータセット構築とモデル学習の両方のための方法論が含まれている。
KnowReasonで広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-30T10:49:32Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - A Knowledge-Injected Curriculum Pretraining Framework for Question Answering [70.13026036388794]
本稿では,知識に基づく質問応答タスクの総合的なKG学習と活用を実現するための一般知識注入型カリキュラム事前学習フレームワーク(KICP)を提案する。
KIモジュールはまずKG中心の事前学習コーパスを生成してLMに知識を注入し、プロセスを3つの重要なステップに一般化する。
KAモジュールは、アダプタを備えたLMで生成されたコーパスから知識を学習し、元の自然言語理解能力を維持できる。
CRモジュールは人間の推論パターンに従って3つのコーパスを構築する。
論文 参考訳(メタデータ) (2024-03-11T03:42:03Z) - Can Language Models Act as Knowledge Bases at Scale? [24.99538360485476]
大規模言語モデル(LLM)は、複雑なクエリに対する応答の理解と生成に顕著な習熟性を示している。
本研究は,LLMがWikidataなどの最新の知識ベース(KB)に匹敵する大規模知識を効果的に保存し,リコールし,理性を持つことができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-02-22T04:20:14Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。
幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。
我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文 参考訳(メタデータ) (2023-10-02T15:43:53Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。