論文の概要: Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.12995v1
- Date: Mon, 19 Jan 2026 12:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.896114
- Title: Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models
- Title(参考訳): グラフ推論パラダイム:大規模言語モデルのためのトポロジーを考慮した強化学習による構造的・記号的推論
- Authors: Runxuan Liu, Xianhao Ou, Xinyan Ma, Jiyuan Wang, Jiafeng Liang, Jiaqi Li, Tao He, Zheng Chu, Rongchuan Mu, Zekun Wang, Baoxin Wang, Dayong Wu, Ming Liu, Shijin Wang, Guoping Hu, Bing Qin,
- Abstract要約: Long Chain-of-Thought (LCoT) は,Large Language Models (LLM) の推論能力の向上に有効であることが証明されている。
RLVRベースの最適化にもかかわらず、既存の手法はいまだに粗大な監督、報酬のハッキング、高いトレーニングコスト、一般化の欠如に悩まされている。
ステップレベルの認知ラベルを持つグラフ構造化表現を用いて,構造化および記号的推論を実現するグラフ推論パラダイム(GRP)を提案する。
- 参考スコア(独自算出の注目度): 45.28250076657801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Chain-of-Thought (LCoT), achieved by Reinforcement Learning with Verifiable Rewards (RLVR), has proven effective in enhancing the reasoning capabilities of Large Language Models (LLMs). However, reasoning in current LLMs is primarily generated as plain text, where performing semantic evaluation on such unstructured data creates a computational bottleneck during training. Despite RLVR-based optimization, existing methods still suffer from coarse-grained supervision, reward hacking, high training costs, and poor generalization. To address these issues, we propose the Graph Reasoning Paradigm (GRP), which realizes structured and symbolic reasoning, implemented via graph-structured representations with step-level cognitive labels. Building upon GRP, we further design Process-Aware Stratified Clipping Group Relative Policy Optimization (PASC-GRPO), which leverages structured evaluation to replace semantic evaluation, achieves process-aware verification through graph-structured outcome rewards, and mitigates reward hacking via stratified clipping advantage estimation. Experiments demonstrate significant improvements across mathematical reasoning and code generation tasks. Data, models, and code will be released later.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) によって達成されたLong Chain-of-Thought (LCoT) は,Large Language Models (LLM) の推論能力の向上に有効であることが証明されている。
しかし、現在のLLMの推論は、主に平文として生成され、そのような非構造化データに対して意味的評価を行うと、訓練中に計算ボトルネックが発生する。
RLVRベースの最適化にもかかわらず、既存の手法はいまだに粗大な監督、報酬のハッキング、高いトレーニングコスト、一般化の欠如に悩まされている。
これらの問題に対処するため,ステップレベルの認知ラベルを持つグラフ構造化表現を用いて,構造化および記号的推論を実現するグラフ推論パラダイム(GRP)を提案する。
GRPを基盤として,意味評価の代替として構造化評価を活用するプロセスアウェア・ストラテファイド・クリッピング・グループ相対政策最適化(PASC-GRPO, Process-Aware Stratified Clipping Group Relative Policy Optimization)を設計し,グラフ構造化結果報酬によるプロセスアウェア・検証を実現し,階層化クリッピングによる報酬ハッキングを緩和する。
実験は、数学的推論とコード生成タスクにまたがる大幅な改善を示す。
データ、モデル、コードは後でリリースされる。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。
GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。
FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-11T13:30:46Z) - Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning [30.889495810312624]
本稿では,意味レベルとトークンレベルの両方でエントロピー信号を活用して推論を改善する,効率的な強化学習フレームワークを提案する。
データ構造とアルゴリズム設計を協調的に最適化することにより,エントロピー崩壊を効果的に軽減し,推論を強化する。
論文 参考訳(メタデータ) (2025-12-04T01:09:17Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Beyond Tokens: Enhancing RTL Quality Estimation via Structural Graph Learning [26.693379689476146]
レジスタ転送レベル(RTL)設計の品質を推定することは、電子設計自動化(EDA)ワークフローにおいて重要である。
本稿では,RTL設計品質評価の改善を目的とした構造対応グラフ自己教師型学習フレームワークStructRTLを提案する。
論文 参考訳(メタデータ) (2025-08-26T06:57:46Z) - GraphRAG-R1: Graph Retrieval-Augmented Generation with Process-Constrained Reinforcement Learning [33.57411612551111]
プロセス制約付き結果ベース強化学習(RL)を用いたLLMの学習による適応型GraphRAGフレームワークGraphRAG-R1を提案する。
本手法は,複雑な問題を分解し,検索ツールを自律的に実行し,効果的な推論を行う。
我々のフレームワークは、様々な既存の検索手法と柔軟に統合でき、継続的に性能改善を提供することができる。
論文 参考訳(メタデータ) (2025-07-31T14:11:16Z) - GraphOmni: A Comprehensive and Extendable Benchmark Framework for Large Language Models on Graph-theoretic Tasks [26.992997870540435]
Graph Omniは、自然言語で記述されたグラフ理論タスクにおけるLLMの推論能力を評価するためのベンチマークである。
我々は,グラフタイプ,シリアライズ形式,シグナリングスキーム間の重要な相互作用を同定し,モデル性能に大きな影響を与えることを示す。
本稿では,LLM推論能力に影響を与える最適要因を適応的に選択する強化学習型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-17T09:01:16Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures [0.0]
本稿では,動的グラフベースの推論フレームワークであるAdaptive Graph of Thoughts (AGoT)を紹介する。
AGoTはテスト時間のみでのLarge Language Models (LLM)推論を強化する。
マルチホップ検索,科学的推論,数学的問題解決にまたがる多様なベンチマークに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-07T16:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。