論文の概要: GraphEval2000: Benchmarking and Improving Large Language Models on Graph Datasets
- arxiv url: http://arxiv.org/abs/2406.16176v1
- Date: Sun, 23 Jun 2024 18:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 18:44:41.948857
- Title: GraphEval2000: Benchmarking and Improving Large Language Models on Graph Datasets
- Title(参考訳): GraphEval2000: グラフデータセット上での大規模言語モデルのベンチマークと改善
- Authors: Qiming Wu, Zichen Chen, Will Corcoran, Misha Sra, Ambuj K. Singh,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
近年の研究では、LLMがグラフ構造化データについて推論する能力の限界が特定されている。
グラフデータ構造問題40と2000のテストケースからなるグラフデータセットGraphEval2000を紹介する。
- 参考スコア(独自算出の注目度): 19.329274124787858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success in natural language processing (NLP), demonstrating significant capabilities in processing and understanding text data. However, recent studies have identified limitations in LLMs' ability to reason about graph-structured data. To address this gap, we introduce GraphEval2000, the first comprehensive graph dataset, comprising 40 graph data structure problems along with 2000 test cases. Additionally, we introduce an evaluation framework based on GraphEval2000, designed to assess the graph reasoning abilities of LLMs through coding challenges. Our dataset categorizes test cases into four primary and four sub-categories, ensuring a comprehensive evaluation. We evaluate eight popular LLMs on GraphEval2000, revealing that LLMs exhibit a better understanding of directed graphs compared to undirected ones. While private LLMs consistently outperform open-source models, the performance gap is narrowing. Furthermore, to improve the usability of our evaluation framework, we propose Structured Symbolic Decomposition (SSD), an instruction-based method designed to enhance LLM performance on GraphEval2000. Results show that SSD improves the performance of GPT-3.5, GPT-4, and GPT-4o on complex graph problems, with an increase of 11.11\%, 33.37\%, and 33.37\%, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めており、テキストデータの処理と理解において重要な能力を示している。
しかし、近年の研究では、LLMがグラフ構造化データについて推論する能力の限界が特定されている。
このギャップに対処するために、グラフデータ構造問題40と2000のテストケースからなるグラフデータセットGraphEval2000を紹介した。
さらに,LLMのグラフ推論能力を評価するために,GraphEval2000に基づく評価フレームワークを導入する。
本データセットは,テストケースを4つのサブカテゴリと4つのサブカテゴリに分類し,総合的な評価を確実にする。
我々はGraphEval2000上で8つの人気のあるLLMを評価し、LLMは無向グラフよりも有向グラフの理解が優れていることを示した。
プライベートLLMは一貫してオープンソースモデルより優れているが、パフォーマンスのギャップは狭まっている。
さらに,評価フレームワークのユーザビリティ向上のために,GraphEval2000上でのLCM性能向上を目的とした命令ベース手法であるStructured Symbolic Decomposition (SSD)を提案する。
その結果,GPT-3.5,GPT-4,GPT-4oの複雑なグラフ問題に対する性能は,それぞれ11.11\%,33.37\%,33.37\%に向上した。
関連論文リスト
- How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。
グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。
この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T16:26:39Z) - Investigating Instruction Tuning Large Language Models on Graphs [37.20541711360419]
グラフ関連のタスクにLLM(Large Language Models)を適用することへの関心が高まっている。
本研究は,実世界のグラフに係わる命令追従型LLMの能力について考察する。
論文 参考訳(メタデータ) (2024-08-10T06:54:35Z) - Exploring the Potential of Large Language Models in Graph Generation [51.046188600990014]
グラフ生成は、与えられたプロパティを持つグラフを生成するために、大きな言語モデル(LLM)を必要とする。
本稿では,LLMのグラフ生成能力について,系統的なタスク設計と実験による検討を行う。
評価の結果,LLM,特にGPT-4は,グラフ生成タスクに予備的能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-21T12:37:54Z) - Can Graph Descriptive Order Affect Solving Graph Problems with LLMs? [38.1577036285387]
大規模言語モデル(LLM)は、数学的推論や論理的推論を含む推論タスクにおいて大きな成功を収めた。
従来の研究は様々な手法を用いてLSMのグラフ推論能力について研究してきた。
重要な要素は、主に見過ごされ、グラフ記述がモデルに提示される即時順序である。
論文 参考訳(メタデータ) (2024-02-11T09:46:24Z) - GraphLLM: Boosting Graph Reasoning Ability of Large Language Model [7.218768686958888]
GraphLLMは、グラフ学習モデルと大規模言語モデルを統合する、先駆的なエンドツーエンドアプローチである。
4つの基本グラフ推論タスクにおける経験的評価により,GraphLLMの有効性が検証された。
その結果、54.44%の精度が向上し、96.45%の文脈が短縮された。
論文 参考訳(メタデータ) (2023-10-09T16:42:00Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Beyond Text: A Deep Dive into Large Language Models' Ability on
Understanding Graph Data [13.524529952170672]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて顕著な性能を達成している。
LLMがグラフデータを効果的に処理し、トポロジ構造を利用して性能を向上させることができるかどうかを評価することを目的とする。
LLMの性能を特殊グラフモデルと比較することにより、グラフ解析にLLMを使用する際の長所と短所について考察する。
論文 参考訳(メタデータ) (2023-10-07T23:25:22Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。