Fugu-MT 論文翻訳(概要): GraphArena: Benchmarking Large Language Models on Graph Computational Problems

論文の概要: GraphArena: Benchmarking Large Language Models on Graph Computational Problems

arxiv url: http://arxiv.org/abs/2407.00379v1
Date: Sat, 29 Jun 2024 09:19:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 03:25:29.432822
Title: GraphArena: Benchmarking Large Language Models on Graph Computational Problems
Title（参考訳）: GraphArena: グラフ計算問題に対する大規模言語モデルのベンチマーク
Authors: Jianheng Tang, Qifan Zhang, Yuhan Li, Jia Li,
Abstract要約: LLM(Large Language Models)の"アームレース(arms race)"は、その進捗を調べるために、新しい、挑戦的な、多様なベンチマークを必要とする。百万規模の実世界のグラフを用いて,グラフ計算問題のモデルを評価するベンチマークツールであるGraphArenaを紹介する。
参考スコア（独自算出の注目度）: 25.72820021030033
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The "arms race" of Large Language Models (LLMs) demands novel, challenging, and diverse benchmarks to faithfully examine their progresses. We introduce GraphArena, a benchmarking tool designed to evaluate LLMs on graph computational problems using million-scale real-world graphs from diverse scenarios such as knowledge graphs, social networks, and molecular structures. GraphArena offers a suite of 10 computational tasks, encompassing four polynomial-time (e.g., Shortest Distance) and six NP-complete challenges (e.g., Travelling Salesman Problem). It features a rigorous evaluation framework that classifies LLM outputs as correct, suboptimal (feasible but not optimal), or hallucinatory (properly formatted but infeasible). Evaluation of 10 leading LLMs, including GPT-4o and LLaMA3-70B-Instruct, reveals that even top-performing models struggle with larger, more complex graph problems and exhibit hallucination issues. Despite the application of strategies such as chain-of-thought prompting, these issues remain unresolved. GraphArena contributes a valuable supplement to the existing LLM benchmarks and is open-sourced at https://github.com/squareRoot3/GraphArena.
Abstract（参考訳）: LLM(Large Language Models)の"アームレース(arms race)"は、彼らの進歩を忠実に検証するために、斬新で挑戦的で多様なベンチマークを必要とする。本稿では,知識グラフやソーシャルネットワーク,分子構造といったさまざまなシナリオから,百万規模の実世界のグラフを用いて,グラフ計算問題におけるLLMを評価するためのベンチマークツールであるGraphArenaを紹介する。 GraphArenaは、多項式時間(例えば、最短距離)と6つのNP完全課題(例えば、トラベリングセールスマン問題)を含む10の計算タスクスイートを提供する。厳密な評価フレームワークが特徴で、LCM出力を正しい、最適でない、あるいは幻覚的(適切なフォーマットだが実現不可能)に分類する。 GPT-4o や LLaMA3-70B-Instruct を含む 10 つの主要な LLM の評価は、上位性能モデルでさえより大きく複雑なグラフ問題に悩まされ、幻覚の問題を呈することを示している。チェーン・オブ・シークレットのような戦略の適用にもかかわらず、これらの問題は未解決のままである。 GraphArenaは既存のLLMベンチマークに貴重なサプリメントを提供しており、https://github.com/squareRoot3/GraphArenaでオープンソース化されている。

関連論文リスト

Graph-Grounded LLMs: Leveraging Graphical Function Calling to Minimize LLM Hallucinations [8.07547612687425]
グラフは、自動運転車のモーションプランニング、ソーシャルネットワーク、シーン理解、知識グラフなど、幅広いアプリケーションに不可欠なものだ。本稿では,グラフライブラリを関数呼び出しを通じて統合することにより,グラフ関連タスク上でのLLM性能を向上させるシステムであるGraph-Grounded LLMを提案する。我々は,NLGraphベンチマークの結果から,幻覚の顕著な低減と,グラフに基づく問題の解法における数学的精度の向上を実証した。
論文参考訳（メタデータ） (2025-03-13T22:57:28Z)
GCoder: Improving Large Language Model for Generalized Graph Problem Solving [38.9131866084555]
大規模言語モデル(LLM)は強力な推論能力を示しており、グラフ計算のような複雑なタスクに適している。本稿では,一般化グラフ問題における問題解決の強化を目的とした,コードベースのLLMであるGCoderを紹介する。本手法では,多種多様なグラフ形式とアルゴリズムを特徴とする広範囲なトレーニングデータセットであるGraphWildを構築する。
論文参考訳（メタデータ） (2024-10-24T18:40:36Z)
What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文参考訳（メタデータ） (2024-10-16T00:01:31Z)
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文参考訳（メタデータ） (2024-09-29T11:38:45Z)
Graph Reasoning with Large Language Models via Pseudo-code Prompting [25.469214467011362]
本稿では,グラフ問題の解法において,擬似コード命令によるプロンプトが大規模言語モデル(LLM)の性能を向上させるか否かを検討する。実験により, 疑似符号命令を用いることで, 一般にLLMの性能が向上することが示された。
論文参考訳（メタデータ） (2024-09-26T14:52:40Z)
Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-08-18T16:26:39Z)
Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-10T15:41:53Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文参考訳（メタデータ） (2024-02-13T02:03:26Z)
GraphLLM: Boosting Graph Reasoning Ability of Large Language Model [7.218768686958888]
GraphLLMは、グラフ学習モデルと大規模言語モデルを統合する、先駆的なエンドツーエンドアプローチである。 4つの基本グラフ推論タスクにおける経験的評価により,GraphLLMの有効性が検証された。その結果、54.44%の精度が向上し、96.45%の文脈が短縮された。
論文参考訳（メタデータ） (2023-10-09T16:42:00Z)
Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。 LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文参考訳（メタデータ） (2023-10-09T07:59:34Z)
Evaluating Large Language Models on Graphs: Performance Insights and Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。 GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文参考訳（メタデータ） (2023-08-22T06:32:07Z)
Can Language Models Solve Graph Problems in Natural Language? [51.28850846990929]
大型言語モデル (LLM) は暗黙的なグラフィカル構造を持つ様々なタスクに採用されている。自然言語をシミュレーションするグラフベース問題解決のベンチマークであるNLGraphを提案する。
論文参考訳（メタデータ） (2023-05-17T08:29:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。