論文の概要: Ontology Learning with LLMs: A Benchmark Study on Axiom Identification
- arxiv url: http://arxiv.org/abs/2512.05594v1
- Date: Fri, 05 Dec 2025 10:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.992588
- Title: Ontology Learning with LLMs: A Benchmark Study on Axiom Identification
- Title(参考訳): LLMを用いたオントロジー学習:公理同定のベンチマーク研究
- Authors: Roos M. Bakker, Daan L. Di Scala, Maaike H. T. de Boer, Stephan A. Raaijmakers,
- Abstract要約: 本稿では,公理を同定する上での課題について検討する。
オントロジー要素はクラスとプロパティの間の論理的関係を定義する。
ベンチマークは9つの中型モデルで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ontologies are an important tool for structuring domain knowledge, but their development is a complex task that requires significant modelling and domain expertise. Ontology learning, aimed at automating this process, has seen advancements in the past decade with the improvement of Natural Language Processing techniques, and especially with the recent growth of Large Language Models (LLMs). This paper investigates the challenge of identifying axioms: fundamental ontology components that define logical relations between classes and properties. In this work, we introduce an Ontology Axiom Benchmark OntoAxiom, and systematically test LLMs on that benchmark for axiom identification, evaluating different prompting strategies, ontologies, and axiom types. The benchmark consists of nine medium-sized ontologies with together 17.118 triples, and 2.771 axioms. We focus on subclass, disjoint, subproperty, domain, and range axioms. To evaluate LLM performance, we compare twelve LLMs with three shot settings and two prompting strategies: a Direct approach where we query all axioms at once, versus an Axiom-by-Axiom (AbA) approach, where each prompt queries for one axiom only. Our findings show that the AbA prompting leads to higher F1 scores than the direct approach. However, performance varies across axioms, suggesting that certain axioms are more challenging to identify. The domain also influences performance: the FOAF ontology achieves a score of 0.642 for the subclass axiom, while the music ontology reaches only 0.218. Larger LLMs outperform smaller ones, but smaller models may still be viable for resource-constrained settings. Although performance overall is not high enough to fully automate axiom identification, LLMs can provide valuable candidate axioms to support ontology engineers with the development and refinement of ontologies.
- Abstract(参考訳): オントロジはドメイン知識を構築するための重要なツールですが、その開発はモデリングとドメインの専門知識を必要とする複雑なタスクです。
このプロセスを自動化することを目的としたオントロジー学習は、自然言語処理技術の改善、特に最近のLarge Language Models(LLMs)の成長により、過去10年間に進歩してきた。
本稿では、クラスとプロパティ間の論理的関係を定義する基本オントロジー要素である公理を同定することの課題について検討する。
本研究では,オントロジー・ベンチマーク・オント・アクト・アクト・オント・アクティオム(Ontology Axiom Benchmark OntoAxiom)を導入し,そのベンチマークを用いて,異なるプロンプト戦略,オントロジー,および公理型を評価する。
ベンチマークは9つの中型のオントロジーと17.118のトリプルと2.771の公理で構成されている。
サブクラス、解離、サブプロパティ、ドメイン、範囲公理に焦点をあてる。
LLMの性能を評価するために、12のLCMと3つのショット設定と2つのプロンプト戦略を比較し、全ての公理を同時にクエリするダイレクトアプローチと、1つの公理のみをクエリするAbAアプローチを比較した。
以上の結果から,AbAは直接的アプローチよりもF1スコアが高いことが示唆された。
しかし、性能は公理によって異なり、特定の公理を識別することがより困難であることを示唆している。
FOAFオントロジーはサブクラスの公理に対して0.642のスコアを獲得し、音楽オントロジーは0.218にしか達しない。
より大きなLLMはより小さなモデルよりも優れていますが、より小さなモデルはリソース制約のある設定でも実行可能です。
全体的な性能は公理同定を完全自動化するには十分ではないが、LLMはオントロジー技術者を支援するためにオントロジーの開発と改良に有効な候補公理を提供することができる。
関連論文リスト
- From Query to Logic: Ontology-Driven Multi-Hop Reasoning in LLMs [10.358543961752027]
我々は、LLMの生成能力と知識グラフの構造的利点を組み合わせたトレーニングなしのフレームワークである**ORACLE* (**O**ntology-driven **R**easoning **A**nd **C*hain for **L*ogical **E**ucidationを提案する。
実験の結果,私たちのフレームワークは,DeepSeek-R1のような最先端モデルに匹敵する,論理的に高い競争力を持つことがわかった。
論文 参考訳(メタデータ) (2025-08-02T16:12:42Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Assessing the Capability of Large Language Models for Domain-Specific Ontology Generation [1.099532646524593]
大規模言語モデル(LLM)は、オントロジー工学に大きな可能性を示している。
本稿では,2つの最先端LCM,DeepSeek と o1-preview の一般化可能性について,一連の有能な質問から考察する。
その結果,全ての領域で実験性能が著しく整合していることが判明した。
論文 参考訳(メタデータ) (2025-04-24T09:47:14Z) - Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach [15.960271016276447]
8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。
DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。
アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
論文 参考訳(メタデータ) (2025-03-13T17:23:45Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability [25.96556671801114]
本稿では,大規模言語モデル(LLM)の逐次推論能力を評価する新しいベンチマークであるAQA-Benchを紹介する。
AQA-Benchを2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築し,14種類のLLMの逐次推論能力を評価する。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。