論文の概要: GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks
- arxiv url: http://arxiv.org/abs/2504.12764v2
- Date: Mon, 19 May 2025 01:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.742306
- Title: GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks
- Title(参考訳): GraphOmni: グラフ理論タスク上の大規模言語モデルのための総合的で拡張可能なベンチマークフレームワーク
- Authors: Hao Xu, Xiangru Jian, Xinjian Zhao, Wei Pang, Chao Zhang, Suyuchen Wang, Qixin Zhang, Zhengyuan Dong, Joao Monteiro, Bang Liu, Qiuzhuang Sun, Tianshu Yu,
- Abstract要約: Graph Omniは、自然言語で記述されたグラフ理論タスクにおけるLLMの推論能力を評価するためのベンチマークである。
これらの次元間の重要な相互作用を識別し、モデルの性能に大きな影響を与えることを示す。
我々の実験によると、Claude-3.5やo4-miniのような最先端モデルは、他のモデルよりも一貫して優れていますが、これらの主要なモデルでさえ、改善の余地がかなりあります。
- 参考スコア(独自算出の注目度): 26.992997870540435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces GraphOmni, a comprehensive benchmark designed to evaluate the reasoning capabilities of LLMs on graph-theoretic tasks articulated in natural language. GraphOmni encompasses diverse graph types, serialization formats, and prompting schemes, significantly exceeding prior efforts in both scope and depth. Through extensive systematic evaluation, we identify critical interactions among these dimensions, demonstrating their substantial impact on model performance. Our experiments reveal that state-of-the-art models like Claude-3.5 and o4-mini consistently outperform other models, yet even these leading models exhibit substantial room for improvement. Performance variability is evident depending on the specific combinations of factors we considered, underscoring the necessity of comprehensive evaluations across these interconnected dimensions. Additionally, we observe distinct impacts of serialization and prompting strategies between open-source and closed-source models, encouraging the development of tailored approaches. Motivated by the findings, we also propose a reinforcement learning-inspired framework that adaptively selects the optimal factors influencing LLM reasoning capabilities. This flexible and extendable benchmark not only deepens our understanding of LLM performance on structured tasks but also provides a robust foundation for advancing research in LLM-based graph reasoning.
- Abstract(参考訳): 本稿では,自然言語で記述したグラフ理論タスクにおけるLLMの推論能力を評価するための総合的なベンチマークであるGraphOmniを紹介する。
GraphOmniは、さまざまなグラフタイプ、シリアライズフォーマット、プロンプトスキームを含み、スコープと深さの両方における以前の取り組みを大幅に上回っている。
大規模な体系的評価を通じて、これらの次元間の重要な相互作用を識別し、モデルの性能にその影響を実証する。
我々の実験によると、Claude-3.5やo4-miniのような最先端モデルは、他のモデルよりも一貫して優れていますが、これらの主要なモデルでさえ、改善の余地がかなりあります。
性能のばらつきは、私たちが考慮した要因の特定の組み合わせによって明らかであり、これらの相互接続された次元における包括的評価の必要性を強調している。
さらに,オープンソースモデルとクローズドソースモデル間のシリアライゼーションと戦略の異なる影響を観察し,カスタマイズされたアプローチの開発を促進する。
また,LLM推論能力に影響を及ぼす最適要因を適応的に選択する強化学習型フレームワークを提案する。
このフレキシブルで拡張可能なベンチマークは、構造化タスクにおけるLLMパフォーマンスの理解を深めるだけでなく、LLMベースのグラフ推論の研究を進めるための堅牢な基盤も提供する。
関連論文リスト
- RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。
RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。
評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文 参考訳(メタデータ) (2025-03-25T03:21:48Z) - GraphICL: Unlocking Graph Learning Potential in LLMs through Structured Prompt Design [13.365623514253926]
Graph In-Context Learning (GraphICL)ベンチマークは、グラフ構造をキャプチャし、限られたラベル知識を扱う新しいプロンプトテンプレートからなる包括的なベンチマークである。
システム評価の結果,GraphICLを用いた汎用LLMは,最先端の特殊グラフLLMやグラフニューラルネットワークモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-27T03:50:30Z) - Revisiting Graph Neural Networks on Graph-level Tasks: Comprehensive Experiments, Analysis, and Improvements [54.006506479865344]
グラフレベルグラフニューラルネットワーク(GNN)のための統一評価フレームワークを提案する。
このフレームワークは、さまざまなデータセットにわたるGNNを評価するための標準化された設定を提供する。
また,表現性の向上と一般化機能を備えた新しいGNNモデルを提案する。
論文 参考訳(メタデータ) (2025-01-01T08:48:53Z) - Towards Graph Foundation Models: A Study on the Generalization of Positional and Structural Encodings [36.58861528662219]
位置的および構造的符号化(PSE)がグラフニューラルネットワーク(GNN)に統合された
本稿では,様々なグラフデータセット間での学習可能なPSEの微調整効率,サンプルサイズによるスケーラビリティ,一般化,能力について検討する。
論文 参考訳(メタデータ) (2024-12-10T10:58:47Z) - LEGO-GraphRAG: Modularizing Graph-based Retrieval-Augmented Generation for Design Space Exploration [17.514586423233872]
LEGO-GraphRAGは,GraphRAGワークフローのきめ細かい分解を可能にするモジュール型フレームワークである。
本フレームワークは,大規模実世界のグラフと多様なクエリセット上でのグラフRAGの総合的研究を促進する。
論文 参考訳(メタデータ) (2024-11-06T15:32:28Z) - A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - MuseGraph: Graph-oriented Instruction Tuning of Large Language Models
for Generic Graph Mining [41.19687587548107]
グラフニューラルネットワーク(GNN)は、異なるグラフタスクやデータセットに適用されるたびに、再トレーニングされる必要がある。
GNNとLarge Language Models(LLM)の強みをシームレスに統合する新しいフレームワークMusteGraphを提案する。
実験結果から,異なるグラフタスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-03-02T09:27:32Z) - Disentangled Representation Learning with Large Language Models for
Text-Attributed Graphs [57.052160123387104]
本稿では,TAGに対するLLMの推論と予測能力を向上させることができるDGTLモデルを提案する。
提案するDGTLモデルでは, グラフ構造情報をGNN層に組み込む。
実験により,提案したDGTLモデルにより,最先端のベースラインよりも優れた性能,あるいは同等の性能が得られることを示した。
論文 参考訳(メタデータ) (2023-10-27T14:00:04Z) - Beyond Text: A Deep Dive into Large Language Models' Ability on
Understanding Graph Data [13.524529952170672]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて顕著な性能を達成している。
LLMがグラフデータを効果的に処理し、トポロジ構造を利用して性能を向上させることができるかどうかを評価することを目的とする。
LLMの性能を特殊グラフモデルと比較することにより、グラフ解析にLLMを使用する際の長所と短所について考察する。
論文 参考訳(メタデータ) (2023-10-07T23:25:22Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。