論文の概要: Scaling Up Knowledge Graph Creation to Large and Heterogeneous Data
Sources
- arxiv url: http://arxiv.org/abs/2201.09694v1
- Date: Mon, 24 Jan 2022 14:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 17:25:40.191198
- Title: Scaling Up Knowledge Graph Creation to Large and Heterogeneous Data
Sources
- Title(参考訳): 大規模および異種データソースへの知識グラフ生成のスケールアップ
- Authors: Enrique Iglesias, Samaneh Jozashoori, Maria-Esther Vidal
- Abstract要約: RDFナレッジグラフ(英: RDF knowledge graph, KG)は、異種データソースから生成された事実を表す強力なデータ構造である。
本稿では, 宣言的に特定されたKG生成プロセスの自動生成の問題に取り組む。
RDFマッピング言語(RML)で定義されたアサーションに従って、異種データをRDFトリプルに計画・変換する手法を提案する。
- 参考スコア(独自算出の注目度): 2.732936573198251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RDF knowledge graphs (KG) are powerful data structures to represent factual
statements created from heterogeneous data sources. KG creation is laborious,
and demands data management techniques to be executed efficiently. This paper
tackles the problem of the automatic generation of KG creation processes
declaratively specified; it proposes techniques for planning and transforming
heterogeneous data into RDF triples following mapping assertions specified in
the RDF Mapping Language (RML). Given a set of mapping assertions, the planner
provides an optimized execution plan by partitioning and scheduling the
execution of the assertions. First, the planner assesses an optimized number of
partitions considering the number of data sources, type of mapping assertions,
and the associations between different assertions. After providing a list of
partitions and assertions that belong to each partition, the planner determines
their execution order. A greedy algorithm is implemented to generate the
partitions' bushy tree execution plan. Bushy tree plans are translated into
operating system commands that guide the execution of the partitions of the
mapping assertions in the order indicated by the bushy tree. The proposed
optimization approach is evaluated over state-of-the-art RML-compliant engines
and existing benchmarks of data sources and RML triples maps. Our experimental
results suggest that the performance of the studied engines can be considerably
improved, particularly in a complex setting with numerous triples maps and data
sources. As a result, engines that usually time in complex cases out can, if
not entirely execute all the assertions, still produce a portion of the KG.
- Abstract(参考訳): rdf知識グラフ(kg)は、異種データソースから生成された事実ステートメントを表す強力なデータ構造である。
kgの作成は手間がかかり、効率的なデータ管理技術が要求される。
本稿では、宣言的に特定されたKG生成プロセスの自動生成の問題に取り組み、RDFマッピング言語(RML)で定義されたマッピングアサーションに従って、異種データをRDFトリプルに計画・変換する手法を提案する。
一連のマッピングアサーションが与えられると、プランナーはアサーションの実行を分割しスケジューリングすることで最適化された実行計画を提供する。
まず、データソース数、マッピングアサーションの種類、異なるアサーション間の関連性を考慮して、最適化されたパーティション数を評価します。
各パーティションに属するパーティションとアサーションのリストを提供した後、プランナーは実行順序を決定する。
分割のブッシーツリー実行計画を生成するために欲張りなアルゴリズムが実装されている。
ブッシュツリープランは、ブッシュツリーが示す順序でマッピングアサーションのパーティションの実行を導くオペレーティングシステムコマンドに変換される。
提案手法は、最先端のRML準拠エンジンと既存のデータソースとRMLトリプルマップのベンチマークに基づいて評価される。
実験結果から,多くのトリプルマップやデータソースを備えた複雑な環境では,エンジンの性能が大幅に向上することが示唆された。
結果として、通常複雑なケースでタイムアウトするエンジンは、すべてのアサーションをフルに実行しなければ、それでもkgの一部を生成できる。
関連論文リスト
- DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [12.555427275787174]
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。
DocETLは、ユーザーがそのようなパイプラインを定義するための宣言的インターフェースを提供し、エージェントベースのフレームワークを使用して自動的に最適化する。
DocETLは出力が1.34$から4.6times$のプランを見つける。
論文 参考訳(メタデータ) (2024-10-16T03:22:35Z) - GARLIC: LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph for Long Document QA [16.945257645760428]
過去には、Retrieval-Augmented Generation (RAG)メソッドがテキストをチャンクに分割して、長いドキュメントを扱う言語モデルを実現していた。
近年のツリーベースRAG法では,グローバルなコンテキストを保ちながら詳細な情報を取得することができる。
階層重みグラフ(GARLIC)を用いた LLM-Guided Dynamic Progress Control と呼ばれる新しい検索手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T07:02:09Z) - Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction [15.324464723174533]
本稿では,オンラインベクトル化マップ構築のためのクエリ機能の向上を重視したエンドツーエンド手法であるMapQRを紹介する。
MapQR はscatter-and-gather クエリと呼ばれる新しいクエリ設計を採用している。
提案したMapQRは,最高平均精度(mAP)を達成し,nuScenesとArgoverse 2.0の両方で良好な効率を維持する。
論文 参考訳(メタデータ) (2024-02-27T11:43:09Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Entity Type Prediction Leveraging Graph Walks and Entity Descriptions [4.147346416230273]
textitGRANDは、RDF2vecの異なるグラフウォーク戦略とテキストエンティティ記述を利用したエンティティ型付けの新しいアプローチである。
提案手法は,細粒度クラスと粗粒度クラスの両方において,KGにおけるエンティティ型付けのためのベンチマークデータセットDBpediaとFIGERのベースラインアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-07-28T13:56:55Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Skip Vectors for RDF Data: Extraction Based on the Complexity of Feature
Patterns [0.0]
Resource Description Framework(RDF)は、Web上のリソースの属性や関連性などのメタデータを記述するためのフレームワークである。
本研究では,近隣のエッジとノードの様々な組み合わせを抽出することにより,RDFグラフ内の各リソースの特徴を表す新しい特徴ベクトル(スキップベクトル)を提案する。
分類タスクは、SVM、k-nearest neighbors法、ニューラルネットワーク、ランダムフォレスト、AdaBoostなどの従来の機械学習アルゴリズムに、各リソースの低次元スキップベクトルを適用することで行うことができる。
論文 参考訳(メタデータ) (2022-01-06T10:07:49Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。