論文の概要: GraphArena: Benchmarking Large Language Models on Graph Computational Problems
- arxiv url: http://arxiv.org/abs/2407.00379v1
- Date: Sat, 29 Jun 2024 09:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:25:29.432822
- Title: GraphArena: Benchmarking Large Language Models on Graph Computational Problems
- Title(参考訳): GraphArena: グラフ計算問題に対する大規模言語モデルのベンチマーク
- Authors: Jianheng Tang, Qifan Zhang, Yuhan Li, Jia Li,
- Abstract要約: LLM(Large Language Models)の"アームレース(arms race)"は、その進捗を調べるために、新しい、挑戦的な、多様なベンチマークを必要とする。
百万規模の実世界のグラフを用いて,グラフ計算問題のモデルを評価するベンチマークツールであるGraphArenaを紹介する。
- 参考スコア(独自算出の注目度): 25.72820021030033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The "arms race" of Large Language Models (LLMs) demands novel, challenging, and diverse benchmarks to faithfully examine their progresses. We introduce GraphArena, a benchmarking tool designed to evaluate LLMs on graph computational problems using million-scale real-world graphs from diverse scenarios such as knowledge graphs, social networks, and molecular structures. GraphArena offers a suite of 10 computational tasks, encompassing four polynomial-time (e.g., Shortest Distance) and six NP-complete challenges (e.g., Travelling Salesman Problem). It features a rigorous evaluation framework that classifies LLM outputs as correct, suboptimal (feasible but not optimal), or hallucinatory (properly formatted but infeasible). Evaluation of 10 leading LLMs, including GPT-4o and LLaMA3-70B-Instruct, reveals that even top-performing models struggle with larger, more complex graph problems and exhibit hallucination issues. Despite the application of strategies such as chain-of-thought prompting, these issues remain unresolved. GraphArena contributes a valuable supplement to the existing LLM benchmarks and is open-sourced at https://github.com/squareRoot3/GraphArena.
- Abstract(参考訳): LLM(Large Language Models)の"アームレース(arms race)"は、彼らの進歩を忠実に検証するために、斬新で挑戦的で多様なベンチマークを必要とする。
本稿では,知識グラフやソーシャルネットワーク,分子構造といったさまざまなシナリオから,百万規模の実世界のグラフを用いて,グラフ計算問題におけるLLMを評価するためのベンチマークツールであるGraphArenaを紹介する。
GraphArenaは、多項式時間(例えば、最短距離)と6つのNP完全課題(例えば、トラベリングセールスマン問題)を含む10の計算タスクスイートを提供する。
厳密な評価フレームワークが特徴で、LCM出力を正しい、最適でない、あるいは幻覚的(適切なフォーマットだが実現不可能)に分類する。
GPT-4o や LLaMA3-70B-Instruct を含む 10 つの主要な LLM の評価は、上位性能モデルでさえより大きく複雑なグラフ問題に悩まされ、幻覚の問題を呈することを示している。
チェーン・オブ・シークレットのような戦略の適用にもかかわらず、これらの問題は未解決のままである。
GraphArenaは既存のLLMベンチマークに貴重なサプリメントを提供しており、https://github.com/squareRoot3/GraphArenaでオープンソース化されている。
関連論文リスト
- GCoder: Improving Large Language Model for Generalized Graph Problem Solving [38.9131866084555]
大規模言語モデル(LLM)は強力な推論能力を示しており、グラフ計算のような複雑なタスクに適している。
本稿では,一般化グラフ問題における問題解決の強化を目的とした,コードベースのLLMであるGCoderを紹介する。
本手法では,多種多様なグラフ形式とアルゴリズムを特徴とする広範囲なトレーニングデータセットであるGraphWildを構築する。
論文 参考訳(メタデータ) (2024-10-24T18:40:36Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。
グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。
この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T16:26:39Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - GraphLLM: Boosting Graph Reasoning Ability of Large Language Model [7.218768686958888]
GraphLLMは、グラフ学習モデルと大規模言語モデルを統合する、先駆的なエンドツーエンドアプローチである。
4つの基本グラフ推論タスクにおける経験的評価により,GraphLLMの有効性が検証された。
その結果、54.44%の精度が向上し、96.45%の文脈が短縮された。
論文 参考訳(メタデータ) (2023-10-09T16:42:00Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - Can Language Models Solve Graph Problems in Natural Language? [51.28850846990929]
大型言語モデル (LLM) は暗黙的なグラフィカル構造を持つ様々なタスクに採用されている。
自然言語をシミュレーションするグラフベース問題解決のベンチマークであるNLGraphを提案する。
論文 参考訳(メタデータ) (2023-05-17T08:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。