論文の概要: LLM-Driven Ontology Construction for Enterprise Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2602.01276v1
- Date: Sun, 01 Feb 2026 15:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.690088
- Title: LLM-Driven Ontology Construction for Enterprise Knowledge Graphs
- Title(参考訳): 企業知識グラフのためのLCM駆動オントロジー構築
- Authors: Abdulsobur Oyewale, Tommaso Soru,
- Abstract要約: 本稿では,企業データからのドメイン固有非構造生成を高速化するパイプラインであるOntoEKGを紹介する。
提案手法では,モデルタスクを,コアクラスとプロパティを識別する抽出モジュールと,それらの要素を論理的に階層化し,それらを標準RDFにシリアライズするエンテーメントモジュールという,2つの異なるフェーズに分解する。
エンドツーエンドの構築のための包括的なベンチマークの欠如に対処するため、私たちは、データ、ファイナンス、ロジスティックスの各分野にわたる文書から派生した、新たな評価データセットを採用しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enterprise Knowledge Graphs have become essential for unifying heterogeneous data and enforcing semantic governance. However, the construction of their underlying ontologies remains a resource-intensive, manual process that relies heavily on domain expertise. This paper introduces OntoEKG, a LLM-driven pipeline designed to accelerate the generation of domain-specific ontologies from unstructured enterprise data. Our approach decomposes the modelling task into two distinct phases: an extraction module that identifies core classes and properties, and an entailment module that logically structures these elements into a hierarchy before serialising them into standard RDF. Addressing the significant lack of comprehensive benchmarks for end-to-end ontology construction, we adopt a new evaluation dataset derived from documents across the Data, Finance, and Logistics sectors. Experimental results highlight both the potential and the challenges of this approach, achieving a fuzzy-match F1-score of 0.724 in the Data domain while revealing limitations in scope definition and hierarchical reasoning.
- Abstract(参考訳): エンタープライズ知識グラフは異種データを統一し、セマンティックガバナンスを強制するために欠かせないものになっている。
しかしながら、その基盤となるオントロジーの構築は、ドメインの専門知識に大きく依存するリソース集約的な手作業プロセスのままである。
本稿では,非構造化企業データからのドメイン固有オントロジーの生成を高速化するLLM駆動パイプラインであるOntoEKGを紹介する。
提案手法では,モデルタスクを,コアクラスとプロパティを識別する抽出モジュールと,それらの要素を論理的に階層構造にして,それらを標準RDFにシリアライズするエンテーメントモジュールという,2つの異なるフェーズに分解する。
エンドツーエンドのオントロジー構築のための包括的なベンチマークの欠如に対処するため、我々は、データ、ファイナンス、ロジスティックスの各分野にわたる文書から得られた新しい評価データセットを採用する。
データドメインにおけるファジィマッチF1スコアの0.724を達成すると同時に、スコープ定義と階層的推論の制限を明らかにした。
関連論文リスト
- Cognitive-YOLO: LLM-Driven Architecture Synthesis from First Principles of Data for Object Detection [3.5554162308775408]
本稿では,Large Language Models (LLM) によるアーキテクチャ合成のための新しいフレームワークであるCognitive-YOLOを提案する。
まず、分析モジュールがターゲットデータセットから重要なメタ特徴を抽出する。
第2に、LLMはこれらの特徴を理由として、Retrieval-Augmented Generation (RAG)を介して取得した最先端コンポーネントを付加し、アーキテクチャを構造化されたニューラルネットワーク記述言語(NADL)に合成する。
第三に、コンパイラは、この記述をデプロイ可能なモデルにインスタンス化する。
論文 参考訳(メタデータ) (2025-12-13T10:52:54Z) - Ontology-Based Knowledge Graph Framework for Industrial Standard Documents via Hierarchical and Propositional Structuring [8.759087891756069]
オントロジーに基づく知識グラフ(KG)構築は、ドメイン知識に対する多次元的理解と高度な推論を可能にする中核技術である。
本研究では,このような文書を階層的な意味構造に整理する手法を提案する。
我々の手法は文書の階層構造と論理構造の両方を捉え、ドメイン固有の意味論を効果的に表現する。
論文 参考訳(メタデータ) (2025-12-09T09:26:37Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。
多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文 参考訳(メタデータ) (2025-09-14T12:20:39Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - On Synthetic Data Strategies for Domain-Specific Generative Retrieval [23.906425329806456]
2段階のトレーニングフレームワークのためのデータストラテジーについて検討する。
最初の段階では、ドキュメントの識別子をクエリからデコードすることを学びます。
第2段階では、好み学習により文書ランキングを洗練させる。
論文 参考訳(メタデータ) (2025-02-25T08:27:54Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Fine-tuning Large Enterprise Language Models via Ontological Reasoning [5.12835891233968]
大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。
LLMファインチューニングのためのタスクとドメイン固有のコーパスを構築するために、存在論的推論の力を利用する新しいニューロシンボリックアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-19T06:48:45Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。