論文の概要: ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
- arxiv url: http://arxiv.org/abs/2509.04696v1
- Date: Thu, 04 Sep 2025 23:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.423791
- Title: ODKE+: Ontology-Guided Open-Domain Knowledge Extraction with LLMs
- Title(参考訳): ODKE+:LLMを用いたオントロジーガイド型オープンドメイン知識抽出
- Authors: Samira Khorshidi, Azadeh Nikfarjam, Suprita Shankar, Yisi Sang, Yash Govind, Hyun Jang, Ali Kasgari, Alexis McClimans, Mohamed Soliman, Vishnu Konda, Ahmed Fakhry, Xiaoguang Qi,
- Abstract要約: ODKE+は、Webソースから数百万のオープンドメイン事実を自動的に抽出し、摂取するプロダクショングレードのシステムである。
このシステムはバッチとストリーミングモードをサポートし、900万以上のウィキペディアページを処理し、9.8%の精度で900万の高信頼の事実を取り込みます。
- 参考スコア(独自算出の注目度): 1.904138488164197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graphs (KGs) are foundational to many AI applications, but maintaining their freshness and completeness remains costly. We present ODKE+, a production-grade system that automatically extracts and ingests millions of open-domain facts from web sources with high precision. ODKE+ combines modular components into a scalable pipeline: (1) the Extraction Initiator detects missing or stale facts, (2) the Evidence Retriever collects supporting documents, (3) hybrid Knowledge Extractors apply both pattern-based rules and ontology-guided prompting for large language models (LLMs), (4) a lightweight Grounder validates extracted facts using a second LLM, and (5) the Corroborator ranks and normalizes candidate facts for ingestion. ODKE+ dynamically generates ontology snippets tailored to each entity type to align extractions with schema constraints, enabling scalable, type-consistent fact extraction across 195 predicates. The system supports batch and streaming modes, processing over 9 million Wikipedia pages and ingesting 19 million high-confidence facts with 98.8% precision. ODKE+ significantly improves coverage over traditional methods, achieving up to 48% overlap with third-party KGs and reducing update lag by 50 days on average. Our deployment demonstrates that LLM-based extraction, grounded in ontological structure and verification workflows, can deliver trustworthiness, production-scale knowledge ingestion with broad real-world applicability. A recording of the system demonstration is included with the submission and is also available at https://youtu.be/UcnE3_GsTWs.
- Abstract(参考訳): 知識グラフ(KG)は多くのAIアプリケーションに基礎を置いているが、その鮮度と完全性を維持するにはコストがかかる。
本稿では,Webソースから数百万のオープンドメイン事実を自動的に抽出し,抽出するプロダクショングレードシステムODKE+を提案する。
The Evidence Retrievers collects support documents, (3) hybrid Knowledge Extractors apply both pattern-based rules and ontology-guided prompting for large language model (LLMs), (4) light Grounder is confirmeds extract facts using a second LLM, (5) the Corroborator ranks and normalizations candidate facts for Ingestion。
ODKE+は、各エンティティタイプに適したオントロジースニペットを動的に生成し、抽出をスキーマ制約と整合させ、195の述語をまたいだスケーラブルで型一貫性のある事実抽出を可能にする。
このシステムはバッチとストリーミングモードをサポートし、900万以上のウィキペディアページを処理し、9.8%の精度で900万の高信頼の事実を取り込みます。
ODKE+は従来の方法でのカバレッジを大幅に改善し、サードパーティのKGと最大48%のオーバーラップを実現し、更新遅延を平均50日短縮する。
我々の展開は、オントロジ構造と検証ワークフローを基盤としたLCMベースの抽出が、幅広い実世界の応用性を備えた信頼性、生産規模での知識摂取を実現することを実証している。
システムデモの記録は提出書に含まれており、https://youtu.be/UcnE3_GsTWsでも公開されている。
関連論文リスト
- Context-Aware Scientific Knowledge Extraction on Linked Open Data using Large Language Models [0.0]
本稿では,クエリ固有の知識を抽出し,洗練し,ランク付けするシステムであるWISE(Workflow for Intelligent Scientific Knowledge extract)を紹介する。
WISEは、様々な情報源から知識を体系的に探求し、合成することによって、詳細な、組織化された回答を提供する。
論文 参考訳(メタデータ) (2025-06-21T04:22:34Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs [9.785096589765908]
ファクトチェックシステムの性能評価には,Averitecデータセットを使用します。
精度予測に加えて,本システムでは,データセットから抽出した証拠を裏付ける。
本システムでは,ベースラインに対する22%の絶対改善である0.33の「平均」スコアを達成している。
論文 参考訳(メタデータ) (2024-08-22T01:42:34Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs [48.32113486904612]
本稿では,FKA-Owlを提案する。FKA-Owlは,偽情報を利用した大規模視覚言語モデル(LVLM)の拡張のためのフレームワークである。
パブリックベンチマークの実験では、FKA-Owlは従来の手法よりも優れたクロスドメイン性能を達成している。
論文 参考訳(メタデータ) (2024-03-04T12:35:09Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。