Fugu-MT 論文翻訳(概要): Scaling Up Knowledge Graph Creation to Large and Heterogeneous Data Sources

論文の概要: Scaling Up Knowledge Graph Creation to Large and Heterogeneous Data Sources

arxiv url: http://arxiv.org/abs/2201.09694v1
Date: Mon, 24 Jan 2022 14:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-25 17:25:40.191198
Title: Scaling Up Knowledge Graph Creation to Large and Heterogeneous Data Sources
Title（参考訳）: 大規模および異種データソースへの知識グラフ生成のスケールアップ
Authors: Enrique Iglesias, Samaneh Jozashoori, Maria-Esther Vidal
Abstract要約: RDFナレッジグラフ(英: RDF knowledge graph, KG)は、異種データソースから生成された事実を表す強力なデータ構造である。本稿では, 宣言的に特定されたKG生成プロセスの自動生成の問題に取り組む。 RDFマッピング言語(RML)で定義されたアサーションに従って、異種データをRDFトリプルに計画・変換する手法を提案する。
参考スコア（独自算出の注目度）: 2.732936573198251
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: RDF knowledge graphs (KG) are powerful data structures to represent factual statements created from heterogeneous data sources. KG creation is laborious, and demands data management techniques to be executed efficiently. This paper tackles the problem of the automatic generation of KG creation processes declaratively specified; it proposes techniques for planning and transforming heterogeneous data into RDF triples following mapping assertions specified in the RDF Mapping Language (RML). Given a set of mapping assertions, the planner provides an optimized execution plan by partitioning and scheduling the execution of the assertions. First, the planner assesses an optimized number of partitions considering the number of data sources, type of mapping assertions, and the associations between different assertions. After providing a list of partitions and assertions that belong to each partition, the planner determines their execution order. A greedy algorithm is implemented to generate the partitions' bushy tree execution plan. Bushy tree plans are translated into operating system commands that guide the execution of the partitions of the mapping assertions in the order indicated by the bushy tree. The proposed optimization approach is evaluated over state-of-the-art RML-compliant engines and existing benchmarks of data sources and RML triples maps. Our experimental results suggest that the performance of the studied engines can be considerably improved, particularly in a complex setting with numerous triples maps and data sources. As a result, engines that usually time in complex cases out can, if not entirely execute all the assertions, still produce a portion of the KG.
Abstract（参考訳）: rdf知識グラフ(kg)は、異種データソースから生成された事実ステートメントを表す強力なデータ構造である。 kgの作成は手間がかかり、効率的なデータ管理技術が要求される。本稿では、宣言的に特定されたKG生成プロセスの自動生成の問題に取り組み、RDFマッピング言語(RML)で定義されたマッピングアサーションに従って、異種データをRDFトリプルに計画・変換する手法を提案する。一連のマッピングアサーションが与えられると、プランナーはアサーションの実行を分割しスケジューリングすることで最適化された実行計画を提供する。まず、データソース数、マッピングアサーションの種類、異なるアサーション間の関連性を考慮して、最適化されたパーティション数を評価します。各パーティションに属するパーティションとアサーションのリストを提供した後、プランナーは実行順序を決定する。分割のブッシーツリー実行計画を生成するために欲張りなアルゴリズムが実装されている。ブッシュツリープランは、ブッシュツリーが示す順序でマッピングアサーションのパーティションの実行を導くオペレーティングシステムコマンドに変換される。提案手法は、最先端のRML準拠エンジンと既存のデータソースとRMLトリプルマップのベンチマークに基づいて評価される。実験結果から,多くのトリプルマップやデータソースを備えた複雑な環境では,エンジンの性能が大幅に向上することが示唆された。結果として、通常複雑なケースでタイムアウトするエンジンは、すべてのアサーションをフルに実行しなければ、それでもkgの一部を生成できる。

関連論文リスト

Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文参考訳（メタデータ） (2025-06-09T17:58:35Z)
RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文参考訳（メタデータ） (2025-03-05T12:10:14Z)
PathRAG: Pruning Graph-based Retrieval Augmented Generation with Relational Paths [42.01377074786958]
Retrieval-augmented Generation (RAG)は、外部データベースから知識を取得することで、大規模言語モデル(LLM)の応答品質を改善する。本稿では、インデックス化グラフから重要な関係経路を検索し、これらの経路をテキスト形式に変換してLLMを誘導するPathRAGを提案する。 PathRAGは、6つのデータセットと5つの評価次元で、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-02-18T11:18:55Z)
SiReRAG: Indexing Similar and Related Information for Multihop Reasoning [96.60045548116584]
SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。 SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
論文参考訳（メタデータ） (2024-12-09T04:56:43Z)
DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing [12.555427275787174]
本稿では,複雑な文書処理パイプラインを最適化するDocETLを提案する。 DocETLは、ユーザーがそのようなパイプラインを定義するための宣言的インターフェースを提供し、エージェントベースのフレームワークを使用して自動的に最適化する。 DocETLは出力が1.34$から4.6times$のプランを見つける。
論文参考訳（メタデータ） (2024-10-16T03:22:35Z)
GARLIC: LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph for Long Document QA [16.945257645760428]
過去には、Retrieval-Augmented Generation (RAG)メソッドがテキストをチャンクに分割して、長いドキュメントを扱う言語モデルを実現していた。近年のツリーベースRAG法では,グローバルなコンテキストを保ちながら詳細な情報を取得することができる。階層重みグラフ(GARLIC)を用いた LLM-Guided Dynamic Progress Control と呼ばれる新しい検索手法を提案する。
論文参考訳（メタデータ） (2024-10-07T07:02:09Z)
Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction [15.324464723174533]
本稿では,オンラインベクトル化マップ構築のためのクエリ機能の向上を重視したエンドツーエンド手法であるMapQRを紹介する。 MapQR はscatter-and-gather クエリと呼ばれる新しいクエリ設計を採用している。提案したMapQRは,最高平均精度(mAP)を達成し,nuScenesとArgoverse 2.0の両方で良好な効率を維持する。
論文参考訳（メタデータ） (2024-02-27T11:43:09Z)
Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。 Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-12T17:59:50Z)
Entity Type Prediction Leveraging Graph Walks and Entity Descriptions [4.147346416230273]
textitGRANDは、RDF2vecの異なるグラフウォーク戦略とテキストエンティティ記述を利用したエンティティ型付けの新しいアプローチである。提案手法は,細粒度クラスと粗粒度クラスの両方において,KGにおけるエンティティ型付けのためのベンチマークデータセットDBpediaとFIGERのベースラインアプローチよりも優れている。
論文参考訳（メタデータ） (2022-07-28T13:56:55Z)
Proton: Probing Schema Linking Information from Pre-trained Language Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-06-28T14:05:25Z)
Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文参考訳（メタデータ） (2022-05-18T21:52:11Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Skip Vectors for RDF Data: Extraction Based on the Complexity of Feature Patterns [0.0]
Resource Description Framework(RDF)は、Web上のリソースの属性や関連性などのメタデータを記述するためのフレームワークである。本研究では,近隣のエッジとノードの様々な組み合わせを抽出することにより,RDFグラフ内の各リソースの特徴を表す新しい特徴ベクトル(スキップベクトル)を提案する。分類タスクは、SVM、k-nearest neighbors法、ニューラルネットワーク、ランダムフォレスト、AdaBoostなどの従来の機械学習アルゴリズムに、各リソースの低次元スキップベクトルを適用することで行うことができる。
論文参考訳（メタデータ） (2022-01-06T10:07:49Z)
Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。 PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。 GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文参考訳（メタデータ） (2021-04-12T21:24:02Z)
DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文参考訳（メタデータ） (2020-07-06T16:35:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。