論文の概要: LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
- arxiv url: http://arxiv.org/abs/2510.19363v2
- Date: Mon, 27 Oct 2025 01:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.609263
- Title: LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts
- Title(参考訳): LoongRL:ロングコンテキストによる高度な推論のための強化学習
- Authors: Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang,
- Abstract要約: より進んだ長文推論のためのデータ駆動型RL法であるLoongRLを紹介する。
KeyChainは、短いマルチホップQAを高微分長文タスクに変換する合成手法である。
Qwen2.5-7Bと14Bでは、LongRLは長文マルチホップQAの精度を+23.5%、+21.1%向上させる。
- 参考スコア(独自算出の注目度): 21.07202581368365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning over long contexts is essential for large language models. While reinforcement learning (RL) enhances short-context reasoning by inducing "Aha" moments in chain-of-thought, the advanced thinking patterns required for long-context reasoning remain largely unexplored, and high-difficulty RL data are scarce. In this paper, we introduce LoongRL, a data-driven RL method for advanced long-context reasoning. Central to LoongRL is KeyChain, a synthesis approach that transforms short multi-hop QA into high-difficulty long-context tasks by inserting UUID chains that hide the true question among large collections of distracting documents. Solving these tasks requires the model to trace the correct chain step-by-step, identify the true question, retrieve relevant facts and reason over them to answer correctly. RL training on KeyChain data induces an emergent plan-retrieve-reason-recheck reasoning pattern that generalizes far beyond training length. Models trained at 16K effectively solve 128K tasks without prohibitive full-length RL rollout costs. On Qwen2.5-7B and 14B, LoongRL substantially improves long-context multi-hop QA accuracy by +23.5% and +21.1% absolute gains. The resulting LoongRL-14B reaches a score of 74.2, rivaling much larger frontier models such as o3-mini (74.5) and DeepSeek-R1 (74.9). It also improves long-context retrieval, passes all 128K needle-in-a-haystack stress tests, and preserves short-context reasoning capabilities.
- Abstract(参考訳): 長いコンテキストに対する推論は、大きな言語モデルにとって不可欠である。
強化学習(RL)は「Aha」モーメントをチェーンオブ思考に誘導することで短文推論を強化するが、長文推論に必要な先進的な思考パターンはほとんど探索されていないままであり、高精度なRLデータは乏しい。
本稿では,データ駆動型RL法であるLoongRLを紹介する。
LoongRLの中心はKeyChainで、短いマルチホップのQAをUUIDチェーンを挿入することで、大量のドキュメントの真の疑問を隠すことで、高難易度な長文タスクに変換する。
これらのタスクを解決するためには、正しい連鎖をステップバイステップで追跡し、真の疑問を特定し、関連する事実を検索し、正しい答えを導き出す必要がある。
KeyChainデータ上のRLトレーニングは、トレーニング長をはるかに超越した、創発的なプラン-レトリーブ-レアソン-リチェック推論パターンを誘導する。
16Kで訓練されたモデルは、フル長のRLロールアウトを禁止せずに、128Kタスクを効果的に解決する。
Qwen2.5-7Bと14Bでは、LongRLは長文マルチホップQAの精度を+23.5%、+21.1%向上させる。
結果、LoongRL-14Bは74.2点に達し、O3-mini (74.5) やDeepSeek-R1 (74.9) といったより大型のフロンティアモデルと競合した。
また、長文検索を改善し、128Kのニードル・イン・ア・ヘイスタックストレステストをすべてパスし、短文推論機能を保持する。
関連論文リスト
- LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards [51.45138356629732]
我々は,疎解報酬を高密度で検証可能な文脈報酬で増強するためにLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルを直接インセンティブ化する。
LongRLVRは、すべてのモデルとベンチマークで標準のRLVRよりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2026-03-02T18:07:53Z) - Incentivizing In-depth Reasoning over Long Contexts with Process Advantage Shaping [38.280470586624496]
長文推論には正確な接地と頑健な長距離推論の両方が必要である。
本稿では,KG駆動型フレームワークであるDeepReasonQAを提案する。
提案手法はRLVRのベースラインを大幅に上回り,パラメータをはるかに少なくしてフロンティアのLLMにマッチすることを示す。
論文 参考訳(メタデータ) (2026-01-18T16:10:04Z) - Lightweight Latent Reasoning for Narrative Tasks [89.94576985780549]
大規模言語モデル(LLM)は、思考の長い連鎖や「推論トレース」を生成することで複雑なタスクに取り組む
本稿では,LiteReasonを提案する。LiteReasonは,標準的なトークンサンプリングとインターリーブすることができ,強化学習と簡単に組み合わせることができる。
LiteReasonは軽量なReasoning Projectorモジュールを使用しており、モデル'スキップ'推論ステップに役立つ持続的な遅延トークンを生成するように訓練されている。
論文 参考訳(メタデータ) (2025-12-01T22:07:32Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation [27.56280364505776]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)を推論タスクで訓練するための中心的なパラダイムとして登場した。
近年の研究では、RLがベースモデルを超えて推論能力にインセンティブを与える能力に疑問が呈されている。
本稿では,課題解決の難しさを抑えるため,学習中に部分解を導入するという,質問増補によるシンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-07-17T16:21:47Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。