論文の概要: CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
- arxiv url: http://arxiv.org/abs/2412.18702v1
- Date: Tue, 24 Dec 2024 23:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:44.404649
- Title: CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
- Title(参考訳): CypherBench: LLM時代の大規模現代知識グラフの精密検索を目指して
- Authors: Yanlin Feng, Simone Papicchio, Sajjadur Rahman,
- Abstract要約: 我々はCypherBenchを紹介した。CypherBenchは11の大規模マルチドメインプロパティグラフを持つ最初のベンチマークで、780万のエンティティと10,000以上の質問がある。
本稿では,Cypher を用いて LLM で効率的にクエリ可能な RDF グラフの上のプロパティグラフビューを提案する。
- 参考スコア(独自算出の注目度): 4.369550829556578
- License:
- Abstract: Retrieval from graph data is crucial for augmenting large language models (LLM) with both open-domain knowledge and private enterprise data, and it is also a key component in the recent GraphRAG system (edge et al., 2024). Despite decades of research on knowledge graphs and knowledge base question answering, leading LLM frameworks (e.g. Langchain and LlamaIndex) have only minimal support for retrieval from modern encyclopedic knowledge graphs like Wikidata. In this paper, we analyze the root cause and suggest that modern RDF knowledge graphs (e.g. Wikidata, Freebase) are less efficient for LLMs due to overly large schemas that far exceed the typical LLM context window, use of resource identifiers, overlapping relation types and lack of normalization. As a solution, we propose property graph views on top of the underlying RDF graph that can be efficiently queried by LLMs using Cypher. We instantiated this idea on Wikidata and introduced CypherBench, the first benchmark with 11 large-scale, multi-domain property graphs with 7.8 million entities and over 10,000 questions. To achieve this, we tackled several key challenges, including developing an RDF-to-property graph conversion engine, creating a systematic pipeline for text-to-Cypher task generation, and designing new evaluation metrics.
- Abstract(参考訳): グラフデータからの検索は、オープンドメイン知識とプライベートエンタプライズデータの両方で大規模言語モデル(LLM)を強化する上で不可欠であり、また、最近のGraphRAGシステム(edge et al , 2024)の重要なコンポーネントでもある。
知識グラフと知識ベース質問応答に関する数十年の研究にもかかわらず、LLMフレームワーク(例えばLangchainやLlamaIndex)は、Wikidataのような現代的な百科事典知識グラフからの検索を最小限にしかサポートしていない。
本稿では,本論文の根本原因を解析し,従来のLLMコンテキストウインドウをはるかに超越した大規模なスキーマ,リソース識別子の使用,重複関係型,正規化の欠如などにより,現代のRDF知識グラフ(例えばWikidata,Freebase)がLLMにとってより効率的でないことを示唆する。
そこで本研究では,Cypher を用いて LLM で効率的にクエリ可能な RDF グラフ上にプロパティグラフビューを提案する。
私たちはこのアイデアをWikidata上でインスタンス化し、CypherBenchを導入した。CypherBenchは780万のエンティティと10,000以上の質問を持つ11の大規模マルチドメインプロパティグラフを備えた最初のベンチマークである。
これを実現するために,RDF-to-propertyグラフ変換エンジンの開発,テキスト-to-Cypherタスク生成のための体系的なパイプラインの作成,新しい評価指標の設計など,いくつかの課題に取り組みました。
関連論文リスト
- Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。