論文の概要: Generalizable LLM Learning of Graph Synthetic Data with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.00845v1
- Date: Sun, 01 Jun 2025 05:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.697642
- Title: Generalizable LLM Learning of Graph Synthetic Data with Reinforcement Learning
- Title(参考訳): 強化学習を用いたグラフ合成データの一般化可能なLLM学習
- Authors: Yizhuo Zhang, Heng Wang, Shangbin Feng, Zhaoxuan Tan, Xinyun Liu, Yulia Tsvetkov,
- Abstract要約: 本稿では、グラフ合成データの一般化可能な学習を強化学習で解き放つことを提案する。
まず、合成グラフ問題に対するソリューションベースおよびプロセスベース報酬を設計する。
実験により、我々のRLレシピは5つのデータセットに対して統計的に有意な改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 38.485929062532925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous research has sought to enhance the graph reasoning capabilities of LLMs by supervised fine-tuning on synthetic graph data. While these led to specialized LLMs better at solving graph algorithm problems, we don't need LLMs for shortest path: we need generalization from synthetic graph data to real-world tasks with implicit graph structures. In this work, we propose to unlock generalizable learning of graph synthetic data with reinforcement learning. We first design solution-based and process-based rewards for synthetic graph problems: instead of rigid memorizing response patterns in direct fine-tuning, we posit that RL would help LLMs grasp the essentials underlying graph reasoning and alleviate overfitting. We employ RL algorithms such as GRPO and DPO, aligning both off-the-shelf LLMs and LLMs fine-tuned on synthetic graph data. We then compare them against existing settings on both in-domain synthetic tasks and out-of-domain real-world tasks with implicit graph structures such as multi-hop QA, structured planning, and more. Extensive experiments demonstrate that our RL recipe leads to statistically significant improvement on 5 datasets, with an average gain of 12.9\% over baseline settings. Further analysis reveals that process-based rewards consistently outperform solution-based rewards, mixing synthetic and real-world task data yields potential gains, while compositionality and explainable intermediate steps remains a critical challenge even after RL.
- Abstract(参考訳): 従来の研究は,合成グラフデータに微調整を施すことにより,LLMのグラフ推論能力の向上を図っている。
これらはグラフアルゴリズムの問題を解くための特殊なLLMに繋がったが、最短経路ではLLMは必要とせず、グラフデータから暗黙的なグラフ構造を持つ実世界のタスクへの一般化が必要である。
本研究では,グラフ合成データの一般化学習と強化学習を両立させることを提案する。
直接微調整における厳密な記憶応答パターンの代わりに、LLはLLMが基本的なグラフ推論を把握し、過剰適合を軽減するのに役立つと仮定する。
我々はGRPOやDPOといったRLアルゴリズムを採用し、既製のLLMとLLMの両方を合成グラフデータに基づいて微調整する。
次に、ドメイン内合成タスクと、マルチホップQAや構造化計画などの暗黙的なグラフ構造を用いて、ドメイン外の実世界のタスクの既存の設定と比較する。
大規模な実験により、我々のRLレシピは5つのデータセットに対して統計的に有意な改善をもたらし、ベースライン設定よりも平均12.9\%向上した。
さらに分析したところ、プロセスベースの報酬はソリューションベースの報酬を一貫して上回り、合成されたタスクデータと実世界のタスクデータを混合すると潜在的な利得が得られるが、構成性や説明可能な中間ステップはRL以降も重要な課題であることがわかった。
関連論文リスト
- G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。
RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。
我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文 参考訳(メタデータ) (2025-05-24T04:33:41Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - Can LLM Graph Reasoning Generalize beyond Pattern Memorization? [46.93972334344908]
我々は,大規模言語モデル (LLM) が,合成学習データにおける意味的,数値的,構造的,推論パターンを超えうるか否かを評価し,実世界のグラフベースタスクにおける有用性を向上させる。
トレーニング後のアライメントが現実世界のタスクに最も有望であるのに対して、LLMグラフの推論をパターンを超えて行うことは、依然としてオープンな研究課題である。
論文 参考訳(メタデータ) (2024-06-23T02:59:15Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。