論文の概要: TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only
- arxiv url: http://arxiv.org/abs/2604.19070v1
- Date: Tue, 21 Apr 2026 04:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.617296
- Title: TRN-R1-Zero: Text-rich Network Reasoning via LLMs with Reinforcement Learning Only
- Title(参考訳): TRN-R1-Zero:強化学習のみによるLLMによるテキストリッチネットワーク推論
- Authors: Yilun Liu, Ruihong Qiu, Zi Huang,
- Abstract要約: TRN-R1-Zeroは、強化学習のみで訓練されたTRN推論のためのポストトレーニングフレームワークである。
大きな推論モデルから生成された教師付き微調整や連鎖データを必要としない。
エッジレベルのタスクとグラフレベルのタスクでゼロショット推論を達成し、クロスドメイン転送を超えて拡張する。
- 参考スコア(独自算出の注目度): 35.0601181121251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot reasoning on text-rich networks (TRNs) remains a challenging frontier, as models must integrate textual semantics with relational structure without task-specific supervision. While graph neural networks rely on fixed label spaces and supervised objectives, recent large language model (LLM)-based approaches often overlook graph context or depend on distillation from larger models, limiting generalisation. We propose TRN-R1-Zero, a post-training framework for TRN reasoning trained solely via reinforcement learning. TRN-R1-Zero directly optimises base LLMs using a Neighbour-aware Group Relative Policy Optimisation objective that dynamically adjusts rewards based on a novel margin gain metric for the informativeness of neighbouring signals, effectively guiding the model toward relational reasoning. Unlike prior methods, TRN-R1-Zero requires no supervised fine-tuning or chain-of-thought data generated from large reasoning models. Extensive experiments across citation, hyperlink, social and co-purchase TRN benchmarks demonstrate the superiority and robustness of TRN-R1-Zero. Moreover, relying strictly on node-level training, TRN-R1-Zero achieves zero-shot inference on edge- and graph-level tasks, extending beyond cross-domain transfer. The codebase is publicly available at https://github.com/superallen13/TRN-R1-Zero.
- Abstract(参考訳): テキストリッチネットワーク(TRN)におけるゼロショット推論は、タスク固有の監督なしに、モデルがテキストセマンティクスとリレーショナル構造を統合する必要があるため、依然として困難なフロンティアである。
グラフニューラルネットワークは固定ラベル空間と教師付き目的に依存しているが、最近の大規模言語モデル(LLM)に基づくアプローチは、しばしばグラフコンテキストを見落としたり、より大きなモデルからの蒸留に依存して一般化を制限する。
TRN-R1-Zero は強化学習のみで訓練された TRN 推論のための後学習フレームワークである。
TRN-R1-Zeroは、近隣の信号の情報化のための新しい利得ゲイン指標に基づいて報酬を動的に調整する近隣のグループ相対政策最適化目標を用いて、ベースLSMを直接最適化し、関係推論に向けてモデルを効果的に導く。
従来の方法とは異なり、TRN-R1-Zeroは、大きな推論モデルから生成された教師付き微調整や連鎖データを必要としない。
励磁、ハイパーリンク、ソーシャルおよび共購入TRNベンチマークの広範な実験は、TRN-R1-Zeroの優位性と堅牢性を示している。
さらに、ノードレベルのトレーニングに厳格に依存して、TRN-R1-Zeroはエッジレベルのタスクとグラフレベルのタスクをゼロショット推論し、クロスドメイン転送を超えて拡張する。
コードベースはhttps://github.com/superallen13/TRN-R1-Zeroで公開されている。
関連論文リスト
- SOLE-R1: Video-Language Reasoning as the Sole Reward for On-Robot Reinforcement Learning [8.073523925328645]
オンライン強化学習のための唯一の報酬信号として設計されたビデオ言語推論モデル。
我々は、SOLE-R1が24の未確認タスクで成功し、強い視覚言語報酬器を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-30T17:46:31Z) - AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping [37.71157510922818]
AffordanceGrasp-R1は、ロボットグリップのための推論駆動のアベイランスセグメンテーションフレームワークである。
AffordanceGrasp-R1は、ベンチマークデータセットにおける最先端(SOTA)メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-02-03T14:00:56Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - DINO-R1: Incentivizing Reasoning Capability in Vision Foundation Models [18.06361678575107]
視覚基盤モデルのコンテキスト内推論能力をインセンティブ化する最初の試みであるtextbfDINO-R1 を提案する。
DINO-R1は、新しい強化スタイルのトレーニング戦略である textbfGroup Relative Query Optimization (GRQO) を導入した。
COCO、LVIS、ODinWの実験により、DINO-R1は制御された微調整ベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2025-05-29T21:58:06Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs [49.41782982417187]
MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な能力を示すが、空間的推論において人間よりもはるかに遅れている。
このギャップを変換駆動型視覚推論(TVR)を用いて検討する。
本稿では,STAR-R1を提案する。STAR-R1は単一ステージのRLパラダイムとTVRに適した微細な報酬機構を統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T17:57:38Z) - Discretization Invariant Networks for Learning Maps between Neural
Fields [3.09125960098955]
離散化不変ニューラルネットワーク(DI-Net)の理解と設計のための新しいフレームワークを提案する。
我々の分析は、異なる有限離散化の下でのモデル出力の偏差の上限を確立する。
構成により、DI-Netsは可積分函数空間間の大きな写像のクラスを普遍的に近似することが証明される。
論文 参考訳(メタデータ) (2022-06-02T17:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。