論文の概要: GraphArena: Evaluating and Exploring Large Language Models on Graph Computation
- arxiv url: http://arxiv.org/abs/2407.00379v2
- Date: Sat, 15 Feb 2025 09:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:50.684210
- Title: GraphArena: Evaluating and Exploring Large Language Models on Graph Computation
- Title(参考訳): GraphArena: グラフ計算による大規模言語モデルの評価と探索
- Authors: Jianheng Tang, Qifan Zhang, Yuhan Li, Nuo Chen, Jia Li,
- Abstract要約: GraphArenaは、現実世界のグラフ問題に対して、LLM(Large Language Models)を評価するために設計されたツールである。
10以上の LLM の評価は、最高性能の LLM でさえ、より大きく複雑なグラフ問題に苦しむことを示している。
この問題に対処する4つの潜在的なソリューションについて検討する。例えば、チェーン・オブ・思想のプロンプト、命令チューニング、コード記述、テスト時間計算のスケーリングなどである。
- 参考スコア(独自算出の注目度): 38.65000765032749
- License:
- Abstract: The ``arms race'' of Large Language Models (LLMs) demands new benchmarks to examine their progresses. In this paper, we introduce GraphArena, a benchmarking tool designed to evaluate LLMs on real-world graph computational problems. It offers a suite of four polynomial-time tasks (e.g., Shortest Distance) and six NP-complete challenges (e.g., Traveling Salesman Problem). GraphArena features a rigorous evaluation framework that classifies LLM outputs as correct, suboptimal (feasible but not optimal), hallucinatory (properly formatted but infeasible), or missing. Evaluation of over 10 LLMs reveals that even top-performing LLMs struggle with larger, more complex graph problems and exhibit hallucination issues. We further explore four potential solutions to address this issue and improve LLMs on graph computation, including chain-of-thought prompting, instruction tuning, code writing, and scaling test-time compute, each demonstrating unique strengths and limitations. GraphArena complements the existing LLM benchmarks and is open-sourced at https://github.com/squareRoot3/GraphArena.
- Abstract(参考訳): LLM (Large Language Models) の '`arms race'' は、その進捗を調べるために新しいベンチマークを要求する。
本稿では,実世界のグラフ計算問題におけるLSMの評価を目的としたベンチマークツールであるGraphArenaを紹介する。
4つの多項式時間タスク(例えば、最短距離)と6つのNP完全課題(例えば、トラベリングセールスマン問題)からなるスイートを提供する。
GraphArenaは厳格な評価フレームワークを備えており、LCM出力を正しい、最適でない、幻覚(適切なフォーマットだが実現不可能)、または欠落と分類する。
10以上の LLM の評価は、最上位の LLM でさえより大きく複雑なグラフ問題に苦しむことを示し、幻覚的問題を示す。
さらに、この問題に対処するための4つの潜在的な解決策を探り、チェーン・オブ・ファシリテート、命令チューニング、コードライティング、テスト時間計算のスケーリングなど、グラフ計算におけるLLMを改善する。
GraphArenaは既存のLLMベンチマークを補完し、https://github.com/squareRoot3/GraphArenaでオープンソース化されている。
関連論文リスト
- What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Graph Reasoning with Large Language Models via Pseudo-code Prompting [25.469214467011362]
本稿では,グラフ問題の解法において,擬似コード命令によるプロンプトが大規模言語モデル(LLM)の性能を向上させるか否かを検討する。
実験により, 疑似符号命令を用いることで, 一般にLLMの性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-26T14:52:40Z) - Can LLM Graph Reasoning Generalize beyond Pattern Memorization? [46.93972334344908]
我々は,大規模言語モデル (LLM) が,合成学習データにおける意味的,数値的,構造的,推論パターンを超えうるか否かを評価し,実世界のグラフベースタスクにおける有用性を向上させる。
トレーニング後のアライメントが現実世界のタスクに最も有望であるのに対して、LLMグラフの推論をパターンを超えて行うことは、依然としてオープンな研究課題である。
論文 参考訳(メタデータ) (2024-06-23T02:59:15Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - Can Language Models Solve Graph Problems in Natural Language? [51.28850846990929]
大型言語モデル (LLM) は暗黙的なグラフィカル構造を持つ様々なタスクに採用されている。
自然言語をシミュレーションするグラフベース問題解決のベンチマークであるNLGraphを提案する。
論文 参考訳(メタデータ) (2023-05-17T08:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。