論文の概要: Incentivizing In-depth Reasoning over Long Contexts with Process Advantage Shaping
- arxiv url: http://arxiv.org/abs/2601.12465v1
- Date: Sun, 18 Jan 2026 16:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.640585
- Title: Incentivizing In-depth Reasoning over Long Contexts with Process Advantage Shaping
- Title(参考訳): プロセスアドバンテージ整形による長期文脈における奥行き推論のインセンティブ化
- Authors: Miao Peng, Weizhou Shen, Nuo Chen, Chenliang Li, Ming Yan, Jia Li,
- Abstract要約: 長文推論には正確な接地と頑健な長距離推論の両方が必要である。
本稿では,KG駆動型フレームワークであるDeepReasonQAを提案する。
提案手法はRLVRのベースラインを大幅に上回り,パラメータをはるかに少なくしてフロンティアのLLMにマッチすることを示す。
- 参考スコア(独自算出の注目度): 38.280470586624496
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective in enhancing LLMs short-context reasoning, but its performance degrades in long-context scenarios that require both precise grounding and robust long-range reasoning. We identify the "almost-there" phenomenon in long-context reasoning, where trajectories are largely correct but fail at the final step, and attribute this failure to two factors: (1) the lack of high reasoning density in long-context QA data that push LLMs beyond mere grounding toward sophisticated multi-hop reasoning; and (2) the loss of valuable learning signals during long-context RL training due to the indiscriminate penalization of partially correct trajectories with incorrect outcomes. To overcome this bottleneck, we propose DeepReasonQA, a KG-driven synthesis framework that controllably constructs high-difficulty, multi-hop long-context QA pairs with inherent reasoning chains. Building on this, we introduce Long-context Process Advantage Shaping (LongPAS), a simple yet effective method that performs fine-grained credit assignment by evaluating reasoning steps along Validity and Relevance dimensions, which captures critical learning signals from "almost-there" trajectories. Experiments on three long-context reasoning benchmarks show that our approach substantially outperforms RLVR baselines and matches frontier LLMs while using far fewer parameters. Further analysis confirms the effectiveness of our methods in strengthening long-context reasoning while maintaining stable RL training.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、LLMの短文推論の強化に有効であることが証明されているが、その性能は、正確な接地と堅牢な長距離推論の両方を必要とする長文シナリオで低下する。
長文推論における「最も近い」現象は, トラジェクトリがほぼ正しいが最終段階では失敗するものであり, 長文QAデータにおける高い推論密度の欠如が, 高度なマルチホップ推論に向けてLLMを単なる根拠を超えて押し上げること, 2) 部分的に正しいトラジェクトリを不正確な結果を伴う不明瞭化によって, 長文RLトレーニング中に有意な学習信号が失われること, の2つの要因に起因している。
このボトルネックを克服するため、我々はKG駆動の合成フレームワークであるDeepReasonQAを提案する。
そこで我々は,Long-context Process Advantage Shaping (LongPAS)を提案する。LongPAS(Long-context Process Advantage Shaping,LongPAS)は,妥当性と妥当性の次元に沿った推論ステップを評価することで,最も重要な学習信号を「ほぼ」軌跡から捉えることによって,よりきめ細かなクレジット割り当てを行う。
3つの長文推論ベンチマーク実験により、我々のアプローチはRLVRベースラインを大幅に上回り、より少ないパラメータを用いてフロンティアLSMにマッチすることを示した。
さらに,RL訓練を安定に維持しつつ,長文推論の強化に本手法の有効性を確認した。
関連論文リスト
- R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth? [63.51955244144878]
R-HoriZONは、Large Reasoning Models(LRMs)における長い水平推論挙動を刺激するために設計された方法である
R-HoriZONに基づいて、長い推論地平線にまたがる相互依存問題を伴う複雑な多段階推論タスクを含む、長期水平推論ベンチマークを構築する。
分析の結果, LRMは有効推論長が限られており, 複数の問題に対する思考予算の配分に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-09T13:16:22Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T09:31:55Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。