論文の概要: OntoURL: A Benchmark for Evaluating Large Language Models on Symbolic Ontological Understanding, Reasoning and Learning
- arxiv url: http://arxiv.org/abs/2505.11031v2
- Date: Mon, 19 May 2025 08:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.186579
- Title: OntoURL: A Benchmark for Evaluating Large Language Models on Symbolic Ontological Understanding, Reasoning and Learning
- Title(参考訳): OntoURL: 記号的オントロジー理解・推論・学習における大規模言語モデルの評価ベンチマーク
- Authors: Xiao Zhang, Huiyuan Lai, Qianru Meng, Johan Bos,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる能力を示しているが、構造化された記号的知識を処理する能力はまだ探索されていない。
ドメイン知識の形式的記号表現を扱う上で,LLMの習熟度を評価するために設計された最初の総合ベンチマークであるOntoURLを紹介する。
- 参考スコア(独自算出の注目度): 12.39792900793627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across a range of natural language processing tasks, yet their ability to process structured symbolic knowledge remains underexplored. To address this gap, we propose a taxonomy of LLMs' ontological capabilities and introduce OntoURL, the first comprehensive benchmark designed to systematically evaluate LLMs' proficiency in handling ontologies -- formal, symbolic representations of domain knowledge through concepts, relationships, and instances. Based on the proposed taxonomy, OntoURL systematically assesses three dimensions: understanding, reasoning, and learning through 15 distinct tasks comprising 58,981 questions derived from 40 ontologies across 8 domains. Experiments with 20 open-source LLMs reveal significant performance differences across models, tasks, and domains, with current LLMs showing proficiency in understanding ontological knowledge but substantial weaknesses in reasoning and learning tasks. These findings highlight fundamental limitations in LLMs' capability to process symbolic knowledge and establish OntoURL as a critical benchmark for advancing the integration of LLMs with formal knowledge representations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な能力を示してきたが、構造化された記号的知識を処理できる能力はまだ探索されていない。
このギャップに対処するため、私たちはLLMのオントロジ能力の分類を提案し、概念、関係性、インスタンスを通してドメイン知識の形式的、象徴的な表現をオントロジを扱う上で、LLMの習熟度を体系的に評価するために設計された最初の総合的なベンチマークであるOntoURLを紹介します。
提案された分類に基づいて、OntoURLは8ドメインにわたる40のオントロジから派生した58,981の質問を含む15の異なるタスクを通して、理解、推論、学習の3つの次元を体系的に評価する。
20のオープンソース LLM による実験では、モデル、タスク、ドメイン間での大幅なパフォーマンス差が示され、現在の LLM は存在論的知識の理解に熟練しているが、推論や学習タスクには重大な弱点がある。
これらの知見は,LLM の記号的知識処理能力の基本的な限界を浮き彫りにして,公式な知識表現と LLM の統合を推進するための重要なベンチマークとして OntoURL を確立した。
関連論文リスト
- KnowLogic: A Benchmark for Commonsense Reasoning via Knowledge-Driven Data Synthesis [33.72114830484246]
知識駆動型合成データ戦略によって生成されたベンチマークであるKnowLogicを紹介する。
KnowLogicは多様な常識知識、もっともらしいシナリオ、そして様々なタイプの論理的推論を統合している。
私たちのベンチマークは、様々なドメインで3000のバイリンガル(中国語と英語)質問で構成されています。
論文 参考訳(メタデータ) (2025-03-08T13:40:10Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do LLMs Dream of Ontologies? [13.776194387957617]
大規模モデル言語(LLM)は、様々な自然言語処理タスクにまたがる顕著な記憶を実証している。
本稿では,LLMが公開リソースから概念識別子(ID)-ラベル関連を正しく再現する範囲について検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - LLMs4OL: Large Language Models for Ontology Learning [0.0]
大規模言語モデル(LLM)をオントロジー学習(OL)に用いるLLMs4OLアプローチを提案する。
LLMは自然言語処理の大幅な進歩を示し、異なる知識領域における複雑な言語パターンをキャプチャする能力を示している。
評価には、WordNetにおける語彙的知識、GeoNamesにおける地理的知識、UMLSにおける医学知識など、様々なオントロジ的知識のジャンルが含まれる。
論文 参考訳(メタデータ) (2023-07-31T13:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。