論文の概要: Distill-SynthKG: Distilling Knowledge Graph Synthesis Workflow for Improved Coverage and Efficiency
- arxiv url: http://arxiv.org/abs/2410.16597v1
- Date: Tue, 22 Oct 2024 00:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:22.608609
- Title: Distill-SynthKG: Distilling Knowledge Graph Synthesis Workflow for Improved Coverage and Efficiency
- Title(参考訳): Distill-SynthKG: カバーと効率を改善するための知識グラフ合成ワークフロー
- Authors: Prafulla Kumar Choubey, Xin Su, Man Luo, Xiangyu Peng, Caiming Xiong, Tiep Le, Shachar Rosenman, Vasudev Lal, Phil Mui, Ricky Ho, Phillip Howard, Chien-Sheng Wu,
- Abstract要約: 大規模言語モデル(LLM)によって生成される知識グラフ(KG)は、検索・拡張生成(RAG)アプリケーションにとってますます価値が増している。
既存のKG抽出法は、大規模コーパスの処理に非効率なプロンプトベースのアプローチに依存している。
LLMに基づく多段階文書レベルのKGワークフローであるSynthKGを提案する。
我々はまた、RAGのための新しいグラフベースの検索フレームワークを設計する。
- 参考スコア(独自算出の注目度): 59.6772484292295
- License:
- Abstract: Knowledge graphs (KGs) generated by large language models (LLMs) are becoming increasingly valuable for Retrieval-Augmented Generation (RAG) applications that require knowledge-intensive reasoning. However, existing KG extraction methods predominantly rely on prompt-based approaches, which are inefficient for processing large-scale corpora. These approaches often suffer from information loss, particularly with long documents, due to the lack of specialized design for KG construction. Additionally, there is a gap in evaluation datasets and methodologies for ontology-free KG construction. To overcome these limitations, we propose SynthKG, a multi-step, document-level ontology-free KG synthesis workflow based on LLMs. By fine-tuning a smaller LLM on the synthesized document-KG pairs, we streamline the multi-step process into a single-step KG generation approach called Distill-SynthKG, substantially reducing the number of LLM inference calls. Furthermore, we re-purpose existing question-answering datasets to establish KG evaluation datasets and introduce new evaluation metrics. Using KGs produced by Distill-SynthKG, we also design a novel graph-based retrieval framework for RAG. Experimental results demonstrate that Distill-SynthKG not only surpasses all baseline models in KG quality -- including models up to eight times larger -- but also consistently excels in retrieval and question-answering tasks. Our proposed graph retrieval framework also outperforms all KG-retrieval methods across multiple benchmark datasets. We release the SynthKG dataset and Distill-SynthKG model publicly to support further research and development.
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成される知識グラフ(KG)は、知識集約的推論を必要とする検索型拡張生成(RAG)アプリケーションにとって、ますます価値が高まっている。
しかし、既存のKG抽出法は、大規模コーパスの処理に非効率なプロンプトベースのアプローチに大きく依存している。
これらのアプローチは、KG構築のための特別な設計が欠如しているため、情報損失、特に長い文書に悩まされることが多い。
さらに、オントロジーフリーなKG構築のための評価データセットと方法論にギャップがある。
これらの制約を克服するために,LLMに基づく文書レベルのオントロジーのないKG合成ワークフローであるSynthKGを提案する。
合成文書-KGペア上でより小さなLCMを微調整することにより、マルチステッププロセスはDistill-SynthKGと呼ばれる単一ステップのKG生成アプローチに合理化され、LLM推論呼び出しの数が大幅に削減される。
さらに,既存の質問応答データセットを再利用して,KG評価データセットを確立するとともに,新たな評価指標を導入する。
また、Distill-SynthKGが生成するKGを用いて、RAGのための新しいグラフベースの検索フレームワークを設計する。
実験結果から、Distill-SynthKGはKG品質のベースラインモデル(最大8倍のモデルを含む)を全て上回るだけでなく、検索や質問応答のタスクも一貫して優れていることが示された。
提案するグラフ検索フレームワークは,複数のベンチマークデータセットにおいて,すべてのKG-検索手法より優れている。
我々は、さらなる研究と開発を支援するために、SynthKGデータセットとDistill-SynthKGモデルを公開した。
関連論文リスト
- Exploiting Large Language Models Capabilities for Question Answer-Driven Knowledge Graph Completion Across Static and Temporal Domains [8.472388165833292]
本稿では,GS-KGC(Generative Subgraph-based KGC)と呼ばれる新しい生成完了フレームワークを提案する。
GS-KGCは、ターゲットエンティティを直接生成するために質問応答形式を採用し、複数の可能な答えを持つ質問の課題に対処する。
本手法は,新たな情報発見を容易にするために,既知の事実を用いて負のサンプルを生成する。
論文 参考訳(メタデータ) (2024-08-20T13:13:41Z) - Generate-on-Graph: Treat LLM as both Agent and KG in Incomplete Knowledge Graph Question Answering [87.67177556994525]
我々は、知識グラフ(KG)を探索しながら、新しい実写トリプルを生成する、Generate-on-Graph(GoG)と呼ばれる学習自由な手法を提案する。
GoGはIKGQAでLLMをエージェントとKGの両方として扱うThinking-Searching-Generatingフレームワークを通じて推論を行う。
論文 参考訳(メタデータ) (2024-04-23T04:47:22Z) - KG-Agent: An Efficient Autonomous Agent Framework for Complex Reasoning
over Knowledge Graph [134.8631016845467]
我々は、KG-Agentと呼ばれる自律LLMベースのエージェントフレームワークを提案する。
KG-Agentでは、LLM、多機能ツールボックス、KGベースのエグゼキュータ、知識メモリを統合する。
有効性を保証するため、プログラム言語を利用してKG上のマルチホップ推論プロセスを定式化する。
論文 参考訳(メタデータ) (2024-02-17T02:07:49Z) - KG-GPT: A General Framework for Reasoning on Knowledge Graphs Using
Large Language Models [18.20425100517317]
本稿では,知識グラフを用いたタスクに対して,大規模言語モデルを活用するフレームワークであるKG-GPTを提案する。
KG-GPTは文の分割、関連するグラフコンポーネントの検索、論理的結論の導出という3つのステップから構成される。
KGベースの事実検証とKGQAベンチマークを用いてKG-GPTを評価する。
論文 参考訳(メタデータ) (2023-10-17T12:51:35Z) - PyGraft: Configurable Generation of Synthetic Schemas and Knowledge
Graphs at Your Fingertips [3.5923669681271257]
PyGraftはPythonベースのツールで、カスタマイズされたドメインに依存しないスキーマとKGを生成する。
我々は,グラフベース機械学習(ML)などの領域において,新たなアプローチをベンチマークする上で,より多様なKGの生成を促進することを目的としている。
MLでは、モデルパフォーマンスと一般化能力のより包括的な評価が促進され、利用可能なベンチマークの限られたコレクションを超えることになる。
論文 参考訳(メタデータ) (2023-09-07T13:00:09Z) - An Open-Source Knowledge Graph Ecosystem for the Life Sciences [5.665519167428707]
PheKnowLatorは、存在論的基盤を持つ知識グラフの構築を自動化するセマンティックエコシステムである。
エコシステムには、KG構築リソース、分析ツール、ベンチマークが含まれている。
PheKnowLatorは、パフォーマンスやユーザビリティを損なうことなく、完全にカスタマイズ可能なKGを可能にする。
論文 参考訳(メタデータ) (2023-07-11T18:55:09Z) - Collective Knowledge Graph Completion with Mutual Knowledge Distillation [11.922522192224145]
我々は,異なるKGからの集合的知識の最大化に焦点をあてるマルチKG完備化の問題について検討する。
CKGC-CKDと呼ばれる,個々のKGと大きな融合KGの両方で,関係対応グラフ畳み込みネットワークエンコーダモデルを用いる新しい手法を提案する。
複数言語データセットによる実験結果から,本手法はKGCタスクにおけるすべての最先端モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-25T09:49:40Z) - KGxBoard: Explainable and Interactive Leaderboard for Evaluation of
Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。
実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文 参考訳(メタデータ) (2022-08-23T15:11:45Z) - Explainable Sparse Knowledge Graph Completion via High-order Graph
Reasoning Network [111.67744771462873]
本稿では,スパース知識グラフ(KG)のための新しい説明可能なモデルを提案する。
高次推論をグラフ畳み込みネットワーク、すなわちHoGRNに結合する。
情報不足を緩和する一般化能力を向上させるだけでなく、解釈可能性も向上する。
論文 参考訳(メタデータ) (2022-07-14T10:16:56Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。