Fugu-MT 論文翻訳(概要): Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners

論文の概要: Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners

arxiv url: http://arxiv.org/abs/2503.00845v1
Date: Sun, 02 Mar 2025 10:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.639135
Title: Rewarding Graph Reasoning Process makes LLMs more Generalized Reasoners
Title（参考訳）: グラフ推論プロセスの逆変換によりLLMはより一般化される
Authors: Miao Peng, Nuo Chen, Zongrui Suo, Jia Li,
Abstract要約: Process Reward Models (PRMs) は、段階的なフィードバックを提供することで推論を強化するという、例外的な約束を証明している。本稿では,グラフ推論問題に対して,ステップワイドラベルを用いた最大のデータセットであるGraphSILOを紹介する。グラフ推論問題のために設計された最初のPRMであるGraphPRMをトレーニングし、2つのキー設定でその有効性を評価する。
参考スコア（独自算出の注目度）: 30.195361623027313
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Despite significant advancements in Large Language Models (LLMs), developing advanced reasoning capabilities in LLMs remains a key challenge. Process Reward Models (PRMs) have demonstrated exceptional promise in enhancing reasoning by providing step-wise feedback, particularly in the context of mathematical reasoning. However, their application to broader reasoning domains remains understudied, largely due to the high costs associated with manually creating step-level supervision. In this work, we explore the potential of PRMs in graph reasoning problems - a domain that demands sophisticated multi-step reasoning and offers opportunities for automated step-level data generation using established graph algorithms. We introduce GraphSILO, the largest dataset for graph reasoning problems with fine-grained step-wise labels, built using automated Task-oriented Trajectories and Monte Carlo Tree Search (MCTS) to generate detailed reasoning steps with step-wise labels. Building upon this dataset, we train GraphPRM, the first PRM designed for graph reasoning problems, and evaluate its effectiveness in two key settings: inference-time scaling and reinforcement learning via Direct Preference Optimization (DPO). Experimental results show that GraphPRM significantly improves LLM performance across 13 graph reasoning tasks, delivering a 9% gain for Qwen2.5-7B and demonstrating transferability to new graph reasoning datasets and new reasoning domains like mathematical problem-solving. Notably, GraphPRM enhances LLM performance on GSM8K and Math500, underscoring the cross-domain applicability of graph-based reasoning rewards. Our findings highlight the potential of PRMs in advancing reasoning across diverse domains, paving the way for more versatile and effective LLMs.
Abstract（参考訳）: LLM(Large Language Models)の大幅な進歩にもかかわらず、LLMにおける高度な推論能力の開発は依然として重要な課題である。 Process Reward Models (PRM) は、特に数学的推論の文脈において、ステップワイズフィードバックを提供することによって推論を強化するという、例外的な約束を証明している。しかしながら、より広範な推論領域への適用は、主に手動でステップレベルの監視を作成することに伴う高コストのため、未検討のままである。本研究では、グラフ推論問題におけるPRMの可能性について検討する。これは、洗練された多段階推論を必要とし、確立されたグラフアルゴリズムを用いたステップレベルの自動データ生成の機会を提供するドメインである。ステップワイズラベルを用いたグラフ推論における最大のデータセットであるGraphSILOを導入し、ステップワイズラベルを用いた詳細な推論ステップを生成するために、自動タスク指向トラジェクトリとモンテカルロ木探索(MCTS)を用いて構築する。このデータセットに基づいて、グラフ推論問題用に設計された最初のPRMであるGraphPRMをトレーニングし、推論時間スケーリングとDPO(Direct Preference Optimization)による強化学習の2つの主要な設定でその効果を評価する。実験の結果,GraphPRMは13のグラフ推論タスク間でLLM性能を著しく改善し,Qwen2.5-7Bの9%のゲインを実現し,新しいグラフ推論データセットや数学的問題解決のような新しい推論領域への転送可能性を示した。特に、GraphPRMはGSM8KとMath500のLLM性能を高め、グラフベースの推論報酬のクロスドメイン適用性を強調している。本研究は, 多様な領域にわたる推論を推し進め, より汎用的で効果的なLLMへの道を開く上で, PRMsの可能性を明らかにするものである。

関連論文リスト

Exploring the Potential of Large Language Models as Predictors in Dynamic Text-Attributed Graphs [23.655368505970443]
我々は,動的グラフの予測タスクに大規模言語モデル (LLM) を考案した。協調LLMを利用したマルチエージェントシステムであるGraphAgent-Dynamic (GAD) フレームワークを提案する。 GADはグローバルおよびローカルの要約エージェントを組み込んでドメイン固有の知識を生成し、ドメイン間の転送可能性を高める。
論文参考訳（メタデータ） (2025-03-05T08:28:11Z)
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning [55.6623318085391]
最近の大規模言語モデル(LLM)推論は、限られたドメイン知識、幻覚への感受性、制約された推論深さに悩まされている。本稿では、ステップワイズ知識グラフ検索とステップワイズ推論の統合に関する最初の研究について述べる。本稿では,プロセス指向の知識グラフ構築を中心としたフレームワークであるKG-RAR,階層的検索戦略,検索後処理と報酬モデルを提案する。
論文参考訳（メタデータ） (2025-03-03T15:20:41Z)
Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation [26.19182768810174]
グラフ構造化データは、さまざまな領域でますます普及し、グラフタスクを処理する効果的なモデルに対する需要が高まっている。グラフニューラルネットワーク(GNN)のような従来のグラフ学習モデルは、大きな進歩を遂げているが、グラフデータを扱う能力は、特定のコンテキストにおいて制限されている。近年,グラフタスクの候補として大規模言語モデル (LLM) が登場しているが,ほとんどの研究はパフォーマンスベンチマークに重点を置いている。
論文参考訳（メタデータ） (2025-02-26T03:03:46Z)
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文参考訳（メタデータ） (2025-01-14T05:18:20Z)
Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents [27.4884498301785]
GraphAgent-Reasonerは、明示的で正確なグラフ推論のための微調整不要なフレームワークである。分散グラフ計算理論にインスパイアされた我々のフレームワークは、グラフ問題を複数のエージェント間で分散される小さなノード中心のタスクに分解する。本フレームワークは,Webページ重要度分析などの実世界のグラフ推論アプリケーションを扱う能力を示す。
論文参考訳（メタデータ） (2024-10-07T15:34:14Z)
How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文参考訳（メタデータ） (2024-10-04T04:48:33Z)
Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。本稿では,課題計画のためのグラフ学習に基づく手法について検討する。我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文参考訳（メタデータ） (2024-05-29T14:26:24Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Exploring the Potential of Large Language Models in Graph Generation [51.046188600990014]
グラフ生成は、与えられたプロパティを持つグラフを生成するために、大きな言語モデル(LLM)を必要とする。本稿では,LLMのグラフ生成能力について,系統的なタスク設計と実験による検討を行う。評価の結果,LLM,特にGPT-4は,グラフ生成タスクに予備的能力を示すことがわかった。
論文参考訳（メタデータ） (2024-03-21T12:37:54Z)
Can Graph Descriptive Order Affect Solving Graph Problems with LLMs? [38.1577036285387]
大規模言語モデル(LLM)は、数学的推論や論理的推論を含む推論タスクにおいて大きな成功を収めた。従来の研究は様々な手法を用いてLSMのグラフ推論能力について研究してきた。重要な要素は、主に見過ごされ、グラフ記述がモデルに提示される即時順序である。
論文参考訳（メタデータ） (2024-02-11T09:46:24Z)
GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-18T03:12:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。