論文の概要: LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards
- arxiv url: http://arxiv.org/abs/2602.05758v1
- Date: Thu, 05 Feb 2026 15:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.999815
- Title: LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards
- Title(参考訳): LongR:Dense Utility Rewardsによる強化学習によるLong-Context Reasoningの展開
- Authors: Bowen Ping, Zijun Chen, Yiyao Yu, Tingfeng Hui, Junchi Yan, Baobao Chang,
- Abstract要約: LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。
LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
- 参考スコア(独自算出の注目度): 57.993003392037174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning has emerged as a key driver for LLM reasoning. This capability is equally pivotal in long-context scenarios--such as long-dialogue understanding and structured data analysis, where the challenge extends beyond consuming tokens to performing rigorous deduction. While existing efforts focus on data synthesis or architectural changes, recent work points out that relying solely on sparse, outcome-only rewards yields limited gains, as such coarse signals are often insufficient to effectively guide the complex long-context reasoning. To address this, we propose LongR, a unified framework that enhances long-context performance by integrating a dynamic "Think-and-Read" mechanism, which interleaves reasoning with document consultation, with a contextual density reward based on relative information gain to quantify the utility of the relevant documents. Empirically, LongR achieves a 9% gain on LongBench v2 and consistent improvements on RULER and InfiniteBench, demonstrating robust efficiency in navigating extensive contexts. Furthermore, LongR consistently enhances performance across diverse RL algorithms (e.g., DAPO, GSPO). Finally, we conduct in-depth analyses to investigate the impact of reasoning chain length on efficiency and the model's robustness against distractors.
- Abstract(参考訳): 強化学習(Reinforcement Learning)は、LLM推論のキードライバーとして登場した。
この機能は、長い会話の理解や構造化データ分析といった、厳格な推論を実行するためのトークンの消費以上の課題がある、という長いコンテキストシナリオにおいても同様に重要である。
既存の取り組みはデータ合成やアーキテクチャの変更に重点を置いているが、最近の研究は、結果のみの報酬は、粗い信号が複雑な長文推論を効果的に導くのに不十分なため、限られた利益をもたらすことを指摘している。
そこで本稿では,文書コンサルテーションと推論をインターリーブする動的"Think-and-Read"機構と,関連する文書の効用を定量化するための相対情報ゲインに基づくコンテキスト密度報酬とを組み合わせることで,長文パフォーマンスを向上させる統一フレームワークであるLongRを提案する。
経験的に、LongRはLongBench v2で9%向上し、RULERとInfiniteBenchで一貫した改善を実現している。
さらに、LongRは様々なRLアルゴリズム(例えば、DAPO、GSPO)のパフォーマンスを継続的に向上させる。
最後に,チェーン長の推論が効率およびモデルがトラクタに対する頑健性に与える影響を詳細に解析する。
関連論文リスト
- Incentivizing In-depth Reasoning over Long Contexts with Process Advantage Shaping [38.280470586624496]
長文推論には正確な接地と頑健な長距離推論の両方が必要である。
本稿では,KG駆動型フレームワークであるDeepReasonQAを提案する。
提案手法はRLVRのベースラインを大幅に上回り,パラメータをはるかに少なくしてフロンティアのLLMにマッチすることを示す。
論文 参考訳(メタデータ) (2026-01-18T16:10:04Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T09:31:55Z) - Hierarchical Document Refinement for Long-context Retrieval-augmented Generation [28.421675216147374]
LongRefinerは、長いドキュメントの固有の構造特性を利用する効率的なプラグアンドプレイ精製機である。
LongRefinerは、最高のベースラインに比べて計算コストとレイテンシを10倍少なくしながら、さまざまなシナリオで競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-15T15:34:15Z) - LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文 参考訳(メタデータ) (2025-02-18T06:40:23Z) - SEAL: Scaling to Emphasize Attention for Long-Context Retrieval [8.805524738976075]
我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。
我々は、特定の注意ヘッドが長文検索と密接に結びついていることを観察し、検索スコアと正あるいは負の相関を示す。
本稿では、これらのヘッドを強調するために生成されたデータを活用する学習ベースのメカニズムを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:09:39Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。