論文の概要: GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation
- arxiv url: http://arxiv.org/abs/2605.09997v2
- Date: Tue, 19 May 2026 08:34:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 01:01:02.770779
- Title: GraphInstruct: A Progressive Benchmark for Diagnosing Capability Gaps in LLM Graph Generation
- Title(参考訳): GraphInstruct: LLMグラフ生成における機能ギャップの診断のためのプログレッシブベンチマーク
- Authors: Zihe Wei, Sheng Xiang, Ying Zhang, Changjun Jiang,
- Abstract要約: GraphInstructは、大規模言語モデルのためのプログレッシブ・複雑度ベンチマークである。
離散的なパワーピークは深度を推論するのではなく,多制約組成で発生する。
制約対応型適応プロンプトを備えた検証誘導反復フレームワークは、プロンプトエンジニアリング天井を一貫して超越している。
- 参考スコア(独自算出の注目度): 29.756570408642144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph-structured data underpins applications from citation analysis and social-network modeling to molecular design and knowledge-graph construction, and Large Language Models (LLMs) are increasingly used as prompt-driven graph synthesizers. Classical graph-generation reviews catalog deep generative models and their evaluation primitives, but predate the LLM era and provide no foundation for evaluating instruction-following graph synthesis. Recent LLM-era benchmarks evaluate models along graph-type or task-domain axes; such organizations, however, average over structural complexity and cannot localize where in the complexity spectrum an LLM breaks down. To close this diagnostic gap, we introduce GraphInstruct, a progressive-complexity benchmark that stratifies LLM graph generation into six complexity levels and five evaluation dimensions, paired with 800 hand-authored instructions, 1,582 algorithmically synthesized reference solutions, and a 12-LLM capability evaluation across 45 (model, strategy) configurations. We find that discriminative power peaks at multi-constraint composition rather than reasoning depth, that no single prompting strategy dominates across levels or model families, and that domain-semantic constraints remain iteration-invariant under all tested methods -- pointing to retrieval rather than additional compute as the next research frontier. Atop the benchmark, a verification-guided iterative framework with constraint-aware adaptive prompting consistently surpasses the prompt-engineering ceiling on tested target models, demonstrating that the benchmark's fine-grained signals drive method development. Data, code, and reproducibility artifacts are released alongside the paper at https://github.com/AI4DataSynth/GraphInstruct_formal
- Abstract(参考訳): グラフ構造化データは、引用分析やソーシャル・ネットワーク・モデリングから分子設計や知識グラフ構築に至るまでの応用を支え、大規模言語モデル(LLM)はプロンプト駆動グラフ合成器としてますます利用されている。
古典的なグラフ生成レビューは、深層生成モデルとその評価プリミティブをカタログ化するが、LLM時代より早く、命令追従グラフ合成を評価する基盤を提供しない。
最近のLCM-eraベンチマークでは、グラフタイプやタスクドメインの軸に沿ったモデルを評価するが、そのような組織は構造的な複雑さよりも平均的で、LLMが分解する複雑性スペクトルの場所をローカライズできない。
この診断ギャップを埋めるために,LLMグラフ生成を6つの複雑性レベルと5つの評価次元に階層化し,800個の手書き命令と1,582個のアルゴリズムで合成された参照解と,45個の(モデル,戦略)構成で12-LLMの性能評価を行う,プログレッシブ・複雑度ベンチマークであるGraphInstructを導入する。
私たちは、深度を推論するよりも、多制約合成において差別的なパワーピークがピークに達し、単一のプロンプト戦略がレベルやモデルファミリをまたいで支配されることがなく、ドメイン・セマンティックな制約は、テストされたすべてのメソッドにおいて反復不変のままであり、次の研究フロンティアとして追加の計算ではなく、検索を指し示していることに気付きました。
ベンチマークの上位では、制約を意識したアダプティブプロンプトを備えた検証誘導反復フレームワークがテスト対象モデルのプロンプトエンジニアリング天井を一貫して上回り、ベンチマークのきめ細かい信号がメソッド開発を駆動することを示す。
データ、コード、再現性に関するアーティファクトは、https://github.com/AI4DataSynth/GraphInstruct_formalで論文とともに公開されている。
関連論文リスト
- Teaching LLMs to See Graphs: Unifying Text and Structural Reasoning [0.0]
本稿では,事前学習によるグラフトポロジ処理を可能にする新しいアーキテクチャであるグラフトランスフォーマー言語モデル(GTLM)を紹介する。
GTLMは例外的にパラメータ効率が高く、LLMのアテンションモジュールに直接グラフ認識のアテンションバイアスを注入する。
我々は,GTLMのアテンションヘッドが暗黙的にメッセージパッシングをシミュレートし,アルゴリズム上の優れた性能を説明することを実証した。
論文 参考訳(メタデータ) (2026-05-11T09:19:55Z) - From Flat to Structural: Enhancing Automated Short Answer Grading with GraphRAG [8.449978933501965]
本稿では,参照資料を構造化知識グラフに整理するグラフ検索拡張生成(GraphRAG)フレームワークを提案する。
提案手法では,高忠実度グラフ構築のためのMicrosoft GraphRAGとHippoRAGニューロシンボリックアルゴリズムの2相パイプラインを用いる。
論文 参考訳(メタデータ) (2026-02-28T04:44:06Z) - DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge [88.82814893945077]
大規模言語モデル(LLM)は複雑な推論において優れているが、静的かつ不完全なパラメトリック知識によって制限される。
最近のグラフ強化RAG (GraphRAG) は、このギャップを補足したグラフを構築し、LLMがそれらを推論できるようにする。
G-reasonerは、様々なグラフ構造化知識を推論するためにグラフと言語基盤モデルを統合した統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T04:38:12Z) - A Graph Talks, But Who's Listening? Rethinking Evaluations for Graph-Language Models [11.808687414968388]
グラフ言語モデル(GLMs)の開発は、グラフニューラルネットワーク(GNNs)の構造的推論能力と大規模言語モデル(LLMs)の意味的理解を統合することを目的としている。
GLMの現在の評価ベンチマークはマルチモーダル推論を評価するには不十分であることを示す。
CLEGR(Compositional Language-Graph Reasoning)ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-28T09:20:47Z) - GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks [26.992997870540435]
Graph Omniは、自然言語で記述されたグラフ理論タスクにおけるLLMの推論能力を評価するためのベンチマークである。
我々は,グラフタイプ,シリアライズ形式,シグナリングスキーム間の重要な相互作用を同定し,モデル性能に大きな影響を与えることを示す。
本稿では,LLM推論能力に影響を与える最適要因を適応的に選択する強化学習型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-17T09:01:16Z) - Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。
本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。
本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文 参考訳(メタデータ) (2025-03-03T15:20:41Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Spectral Clustering for Directed Graphs via Likelihood Estimation on Stochastic Block Models [22.421702511126373]
ブロックモデルに対する統計的推測を利用して、有向グラフに対するスペクトルクラスタリングアルゴリズムの開発を導く。
我々は、スペクトル緩和の誤クラスタリング誤差に関する理論上界を確立し、この緩和に基づいて、有向グラフに対する新しい自己適応スペクトルクラスタリング法を導入する。
論文 参考訳(メタデータ) (2024-03-28T15:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。