論文の概要: Generalizable LLM Learning of Graph Synthetic Data with Post-training Alignment
- arxiv url: http://arxiv.org/abs/2506.00845v3
- Date: Sun, 17 Aug 2025 12:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.003166
- Title: Generalizable LLM Learning of Graph Synthetic Data with Post-training Alignment
- Title(参考訳): 学習後アライメントを用いたグラフ合成データの一般化可能なLLM学習
- Authors: Yizhuo Zhang, Heng Wang, Shangbin Feng, Zhaoxuan Tan, Xinyun Liu, Yulia Tsvetkov,
- Abstract要約: 本稿では,グラフの一般化可能な学習を,学習後の合成データとの整合性で解き放つことを提案する。
我々はGRPOやDPOといったポストトレーニング後のアライメントアルゴリズムを採用し、合成グラフデータに基づいて、既製のLLMとLLMの両方を微調整する。
大規模な実験により、我々のトレーニング後のアライメントレシピは、5つのデータセットに対して統計的に有意な改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 38.485929062532925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research has sought to enhance the graph reasoning capabilities of LLMs by supervised fine-tuning on synthetic graph data. While these led to specialized LLMs better at solving graph algorithm problems, we don't need LLMs for shortest path: we need generalization from synthetic graph data to real-world tasks with implicit graph structures. In this work, we propose to unlock generalizable learning of graph with post-training alignment with synthetic data. We first design solution-based and process-based rewards for synthetic graph problems: instead of rigid memorizing response patterns in direct fine-tuning, we posit that post-training alignment would help LLMs grasp the essentials underlying graph reasoning and alleviate overfitting on synthetic data. We employ post-training alignment algorithms such as GRPO and DPO, aligning both off-the-shelf LLMs and LLMs fine-tuned on synthetic graph data. We then compare them against existing settings on both in-domain synthetic tasks and out-of-domain real-world tasks with implicit graph structures such as multi-hop QA, structured planning, and more. Extensive experiments demonstrate that our post-training alignment recipe leads to statistically significant improvement on 5 datasets, with an average gain of 12.9% over baseline settings. Further analysis reveals that process-based rewards consistently outperform solution-based rewards on synthetic data but not on real-world tasks, and compositionality and explainable intermediate steps remains a critical challenge even after post-training alignment.
- Abstract(参考訳): 従来の研究は,合成グラフデータに微調整を施すことにより,LLMのグラフ推論能力の向上を図っている。
これらはグラフアルゴリズムの問題を解くための特殊なLLMに繋がったが、最短経路ではLLMは必要とせず、グラフデータから暗黙的なグラフ構造を持つ実世界のタスクへの一般化が必要である。
本研究では,グラフの一般化可能な学習を,学習後のデータと合成データとの整合性で解き放つことを提案する。
まず, 直接微調整における厳密な記憶応答パターンの代わりに, 合成グラフ問題に対する解法とプロセスに基づく報酬を設計し, 学習後のアライメントは, 合成データに対する過剰適合を緩和し, 基礎となるグラフ推論をLLMが把握するのに役立つと仮定した。
我々はGRPOやDPOといったポストトレーニング後のアライメントアルゴリズムを採用し、合成グラフデータに基づいて、既製のLLMとLLMの両方を微調整する。
次に、ドメイン内合成タスクと、マルチホップQAや構造化計画などの暗黙的なグラフ構造を用いて、ドメイン外の実世界のタスクの既存の設定と比較する。
大規模な実験では、トレーニング後のアライメントレシピが5つのデータセットに対して統計的に顕著な改善をもたらし、ベースライン設定よりも平均12.9%向上した。
さらに分析したところ、プロセスベースの報酬は、実世界のタスクではなく、合成データに対するソリューションベースの報酬よりも一貫して優れており、構成性や説明可能な中間ステップは、訓練後のアライメント後も重要な課題であることがわかった。
関連論文リスト
- GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning [33.57411612551111]
プロセス制約付き結果ベース強化学習(RL)を用いたLLMの学習による適応型GraphRAGフレームワークGraphRAG-R1を提案する。
本手法は,複雑な問題を分解し,検索ツールを自律的に実行し,効果的な推論を行う。
我々のフレームワークは、様々な既存の検索手法と柔軟に統合でき、継続的に性能改善を提供することができる。
論文 参考訳(メタデータ) (2025-07-31T14:11:16Z) - G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。
RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。
我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文 参考訳(メタデータ) (2025-05-24T04:33:41Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Can LLM Graph Reasoning Generalize beyond Pattern Memorization? [46.93972334344908]
我々は,大規模言語モデル (LLM) が,合成学習データにおける意味的,数値的,構造的,推論パターンを超えうるか否かを評価し,実世界のグラフベースタスクにおける有用性を向上させる。
トレーニング後のアライメントが現実世界のタスクに最も有望であるのに対して、LLMグラフの推論をパターンを超えて行うことは、依然としてオープンな研究課題である。
論文 参考訳(メタデータ) (2024-06-23T02:59:15Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。