Fugu-MT 論文翻訳(概要): OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases

論文の概要: OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases

arxiv url: http://arxiv.org/abs/2506.12577v1
Date: Sat, 14 Jun 2025 17:16:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.494884
Title: OneEval: Benchmarking LLM Knowledge-intensive Reasoning over Diverse Knowledge Bases
Title（参考訳）: OneEval: 多様な知識ベースに対するLLM知識集約推論のベンチマーク
Authors: Yongrui Chen, Zhiqiang Liu, Jing Yu, Lin Ren, Nan Hu, Xinbang Dai, Jiajun Liu, Jiazhen Kang, Shenyu Zhang, Xinda Wang, Keyan Ding, Pengfei Shen, Haolei Zhu, Hongjie Deng, Yisong Wang, Tongtong Wu, Sheng Bi, Wen Zhang, Tianxing Wu, Qiu Ji, Haofen Wang, Wenliang Chen, Huajun Chen, Guilin Qi,
Abstract要約: textbftextscOneEvalは、LLM(Large Language Models)の知識集約推論能力を評価するベンチマークである。 textscOneEvalは、慎重にキュレートされた4,019のインスタンスで構成され、特に難しいケースが1,285である、挑戦的なサブセットであるtextscOneEvaltextsubscriptHardを含んでいる。我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textscOneEvalデータセット、評価スクリプト、ベースライン結果を公開した。
参考スコア（独自算出の注目度）: 38.58409057214189
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have demonstrated substantial progress on reasoning tasks involving unstructured text, yet their capabilities significantly deteriorate when reasoning requires integrating structured external knowledge such as knowledge graphs, code snippets, or formal logic. This limitation is partly due to the absence of benchmarks capable of systematically evaluating LLM performance across diverse structured knowledge modalities. To address this gap, we introduce \textbf{\textsc{OneEval}}, a comprehensive benchmark explicitly designed to assess the knowledge-intensive reasoning capabilities of LLMs across four structured knowledge modalities, unstructured text, knowledge graphs, code, and formal logic, and five critical domains (general knowledge, government, science, law, and programming). \textsc{OneEval} comprises 4,019 carefully curated instances and includes a challenging subset, \textsc{OneEval}\textsubscript{Hard}, consisting of 1,285 particularly difficult cases. Through extensive evaluation of 18 state-of-the-art open-source and proprietary LLMs, we establish three core findings: a) \emph{persistent limitations in structured reasoning}, with even the strongest model achieving only 32.2\% accuracy on \textsc{OneEval}\textsubscript{Hard}; b) \emph{performance consistently declines as the structural complexity of the knowledge base increases}, with accuracy dropping sharply from 53\% (textual reasoning) to 25\% (formal logic); and c) \emph{diminishing returns from extended reasoning chains}, highlighting the critical need for models to adapt reasoning depth appropriately to task complexity. We release the \textsc{OneEval} datasets, evaluation scripts, and baseline results publicly, accompanied by a leaderboard to facilitate ongoing advancements in structured knowledge reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、構造化されていないテキストを含む推論タスクに大きな進歩を示したが、その能力は、知識グラフ、コードスニペット、形式論理などの構造化外的知識を統合する必要がある場合に著しく低下した。この制限は、様々な構造化知識モダリティにまたがってLLM性能を体系的に評価できるベンチマークが存在しないことによる。このギャップに対処するために、構造化されていない4つの知識モダリティ、構造化されていないテキスト、知識グラフ、コード、形式論理、および5つの重要なドメイン(一般知識、政府、科学、法律、プログラミング)にわたるLLMの知識集約的推論能力を評価するために明示的に設計された総合的なベンチマークである \textbf{\textsc{OneEval}} を紹介する。 \textsc{OneEval} は4,019個の慎重にキュレートされたインスタンスから構成されており、特に難しいケースが1,285個ある、挑戦的なサブセットである \textsc{OneEval}\textsubscript{Hard} を含んでいる。最先端のオープンソースおよびプロプライエタリなLLM18の広範な評価を通じて、3つの中核的な発見を確定する。 a) 構造化推論におけるemph{peristent limit in structured reasoning}, 最強のモデルでさえ, \textsc{OneEval}\textsubscript{Hard}上で32.2\%の精度しか達成していない。 b)知識ベースの構造的複雑さが増大するにつれて、emph{ Performanceは一貫して低下し、精度は53\%(テキスト推論)から25\%(形式論理)に急落する。 c) \emph{diminishing return from extended reasoning chains} ここでは、推論深度をタスクの複雑さに適切に適応するためのモデルの重要性を強調している。我々は、構造化知識推論の継続的な進歩を促進するためのリーダーボードを伴って、textsc{OneEval}データセット、評価スクリプト、ベースライン結果を公開した。

関連論文リスト

SKA-Bench: A Fine-Grained Benchmark for Evaluating Structured Knowledge Understanding of LLMs [29.88977150203991]
我々は、構造化知識強化QAベンチマークであるSKA-Benchを紹介し、KG、Table、KG+Text、Table+Textの4つの広く使われている構造化知識形式を含む。 SKA-Bench インスタンスの構築には,質問,回答,肯定的な知識ユニット,ノイズの多い知識ユニットを含む3段階のパイプラインを利用する。 LLMのSK理解能力を詳細に評価するため,ノイズロバスト性,秩序不感,情報統合,否定的拒絶の4つの基本能力テストベッドにインスタンスを拡張した。
論文参考訳（メタデータ） (2025-07-23T03:52:24Z)
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。精度は4.0%から44.3%に向上した。
論文参考訳（メタデータ） (2025-04-18T07:55:09Z)
RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation [46.237206695937246]
本稿では,クエリ固有の知識グラフを動的に構築するフレームワークであるRetrieval-And-Structuring (RAS)を提案する。 7つの知識集約ベンチマークでは、RASは一貫して強力なベースラインを上回っている。この結果から,動的クエリ固有知識構造化は,言語モデル生成における推論精度と堅牢性を向上させるための堅牢な経路を提供することが示された。
論文参考訳（メタデータ） (2025-02-16T05:01:49Z)
Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking [44.66045367454493]
本稿では,SKPパラダイムの一般化能力について,グラニュラリティ,トランスファービリティ,スケーラビリティ,普遍性という4つの視点から評価・再考することを目的とする。我々は、粒度と難易度が異なる9つのタスクからなる、SUBARUと呼ばれる新しいマルチグラニュラー・マルチレベルベンチマークを導入する。
論文参考訳（メタデータ） (2024-12-31T03:20:22Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文参考訳（メタデータ） (2023-10-09T11:45:59Z)
Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文参考訳（メタデータ） (2023-10-02T15:43:53Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。