論文の概要: GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets
- arxiv url: http://arxiv.org/abs/2406.16176v2
- Date: Mon, 17 Feb 2025 09:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:35.456618
- Title: GraphEval36K: Benchmarking Coding and Reasoning Capabilities of Large Language Models on Graph Datasets
- Title(参考訳): GraphEval36K: グラフデータセット上の大規模言語モデルのベンチマークコーディングと推論機能
- Authors: Qiming Wu, Zichen Chen, Will Corcoran, Misha Sra, Ambuj K. Singh,
- Abstract要約: GraphEval36Kは、40のグラフコーディング問題と36,900のテストケースからなる、最初の包括的なグラフデータセットである。
我々のデータセットは8つのプライマリカテゴリと4つのサブカテゴリに分類され、異なるタイプのグラフに対する徹底的な評価が保証される。
評価フレームワークのユーザビリティ向上のために,構造化記号分解(SSD)を提案する。
SSDはGPT-4, GPT-4o, Gemini-Pro, Claude-3-Sonnetの平均通過速度を8.38%, 6.78%, 29.28%, 25.28%改善する。
- 参考スコア(独自算出の注目度): 19.329274124787858
- License:
- Abstract: Large language models (LLMs) have achieved remarkable success in natural language processing (NLP), demonstrating significant capabilities in processing and understanding text data. However, recent studies have identified limitations in LLMs' ability to manipulate, program, and reason about structured data, especially graphs. We introduce GraphEval36K, the first comprehensive graph dataset, comprising 40 graph coding problems and 36,900 test cases to evaluate the ability of LLMs on graph problem-solving. Our dataset is categorized into eight primary and four sub-categories to ensure a thorough evaluation across different types of graphs. We benchmark ten LLMs, finding that private models outperform open-source ones, though the gap is narrowing. We also analyze the performance of LLMs across directed vs undirected graphs, different kinds of graph concepts, and network models. Furthermore, to improve the usability of our evaluation framework, we propose Structured Symbolic Decomposition (SSD), an instruction-based method designed to enhance LLM performance on complex graph tasks. Results show that SSD improves the average passing rate of GPT-4, GPT-4o, Gemini-Pro and Claude-3-Sonnet by 8.38%, 6.78%, 29.28% and 25.28%, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めており、テキストデータの処理と理解において重要な能力を示している。
しかし、最近の研究では、LLMが構造化データ、特にグラフを操作、プログラム、推論する能力の限界が特定されている。
グラフ問題解決におけるLCMの能力を評価するために,40のグラフ符号化問題と36,900のテストケースからなるグラフデータセットGraphEval36Kを導入する。
我々のデータセットは8つのプライマリカテゴリと4つのサブカテゴリに分類され、異なるタイプのグラフに対する徹底的な評価が保証される。
私たちは10のLMをベンチマークし、プライベートモデルがオープンソースモデルより優れていることを発見したが、ギャップは狭まっている。
また、有向グラフと無向グラフ、異なる種類のグラフ概念、ネットワークモデルにまたがるLLMの性能も分析する。
さらに,評価フレームワークのユーザビリティ向上のために,複雑なグラフタスク上でのLLM性能向上を目的とした命令ベース手法であるStructured Symbolic Decomposition (SSD)を提案する。
その結果, GPT-4, GPT-4o, Gemini-Pro, Claude-3-Sonnetの平均通過速度は8.38%, 6.78%, 29.28%, 25.28%向上した。
関連論文リスト
- How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。
グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。
この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T16:26:39Z) - Investigating Instruction Tuning Large Language Models on Graphs [37.20541711360419]
グラフ関連のタスクにLLM(Large Language Models)を適用することへの関心が高まっている。
本研究は,実世界のグラフに係わる命令追従型LLMの能力について考察する。
論文 参考訳(メタデータ) (2024-08-10T06:54:35Z) - Exploring the Potential of Large Language Models in Graph Generation [51.046188600990014]
グラフ生成は、与えられたプロパティを持つグラフを生成するために、大きな言語モデル(LLM)を必要とする。
本稿では,LLMのグラフ生成能力について,系統的なタスク設計と実験による検討を行う。
評価の結果,LLM,特にGPT-4は,グラフ生成タスクに予備的能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-21T12:37:54Z) - Can Graph Descriptive Order Affect Solving Graph Problems with LLMs? [38.1577036285387]
大規模言語モデル(LLM)は、数学的推論や論理的推論を含む推論タスクにおいて大きな成功を収めた。
従来の研究は様々な手法を用いてLSMのグラフ推論能力について研究してきた。
重要な要素は、主に見過ごされ、グラフ記述がモデルに提示される即時順序である。
論文 参考訳(メタデータ) (2024-02-11T09:46:24Z) - GraphLLM: Boosting Graph Reasoning Ability of Large Language Model [7.218768686958888]
GraphLLMは、グラフ学習モデルと大規模言語モデルを統合する、先駆的なエンドツーエンドアプローチである。
4つの基本グラフ推論タスクにおける経験的評価により,GraphLLMの有効性が検証された。
その結果、54.44%の精度が向上し、96.45%の文脈が短縮された。
論文 参考訳(メタデータ) (2023-10-09T16:42:00Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Beyond Text: A Deep Dive into Large Language Models' Ability on
Understanding Graph Data [13.524529952170672]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて顕著な性能を達成している。
LLMがグラフデータを効果的に処理し、トポロジ構造を利用して性能を向上させることができるかどうかを評価することを目的とする。
LLMの性能を特殊グラフモデルと比較することにより、グラフ解析にLLMを使用する際の長所と短所について考察する。
論文 参考訳(メタデータ) (2023-10-07T23:25:22Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。