論文の概要: QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
- arxiv url: http://arxiv.org/abs/2512.12967v1
- Date: Mon, 15 Dec 2025 04:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.528255
- Title: QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management
- Title(参考訳): QwenLong-L1.5: ロングコンテキスト推論とメモリ管理のためのポストトレーニングレシピ
- Authors: Weizhou Shen, Ziyi Yang, Chenliang Li, Zhiyuan Lu, Miao Peng, Huashan Sun, Yingcheng Shi, Shengyi Liao, Shaopeng Lai, Bo Zhang, Dayiheng Liu, Fei Huang, Jingren Zhou, Ming Yan,
- Abstract要約: QwenLong-L1.5は、体系的なポストトレーニングイノベーションを通じて優れた長文推論機能を提供するモデルである。
我々は,グローバルに分散した証拠に対してマルチホップシーケンスを必要とする難解な推論タスクを生成するための体系的枠組みを開発する。
我々は,4Mトークンを超えるタスクに対して,単一パス推論と反復的メモリベース処理をシームレスに統合するマルチエクスプロイト融合RLトレーニングを用いたメモリ管理フレームワークを開発した。
- 参考スコア(独自算出の注目度): 81.24674400474989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce QwenLong-L1.5, a model that achieves superior long-context reasoning capabilities through systematic post-training innovations. The key technical breakthroughs of QwenLong-L1.5 are as follows: (1) Long-Context Data Synthesis Pipeline: We develop a systematic synthesis framework that generates challenging reasoning tasks requiring multi-hop grounding over globally distributed evidence. By deconstructing documents into atomic facts and their underlying relationships, and then programmatically composing verifiable reasoning questions, our approach creates high-quality training data at scale, moving substantially beyond simple retrieval tasks to enable genuine long-range reasoning capabilities. (2) Stabilized Reinforcement Learning for Long-Context Training: To overcome the critical instability in long-context RL, we introduce task-balanced sampling with task-specific advantage estimation to mitigate reward bias, and propose Adaptive Entropy-Controlled Policy Optimization (AEPO) that dynamically regulates exploration-exploitation trade-offs. (3) Memory-Augmented Architecture for Ultra-Long Contexts: Recognizing that even extended context windows cannot accommodate arbitrarily long sequences, we develop a memory management framework with multi-stage fusion RL training that seamlessly integrates single-pass reasoning with iterative memory-based processing for tasks exceeding 4M tokens. Based on Qwen3-30B-A3B-Thinking, QwenLong-L1.5 achieves performance comparable to GPT-5 and Gemini-2.5-Pro on long-context reasoning benchmarks, surpassing its baseline by 9.90 points on average. On ultra-long tasks (1M~4M tokens), QwenLong-L1.5's memory-agent framework yields a 9.48-point gain over the agent baseline. Additionally, the acquired long-context reasoning ability translates to enhanced performance in general domains like scientific reasoning, memory tool using, and extended dialogue.
- Abstract(参考訳): QwenLong-L1.5は、学習後の体系的な革新を通じて、より優れた長文推論能力を実現するモデルである。
QwenLong-L1.5の重要な技術的ブレークスルーは次のとおりである。 (1) 長期データ合成パイプライン: グローバルに分散した証拠に対してマルチホップグラウンドを必要とする困難な推論タスクを生成する、体系的な合成フレームワークを開発する。
文書をアトミックな事実とその基盤となる関係に分解し、検証可能な推論質問をプログラムで作成することにより、本手法は、単純な検索タスクをはるかに超越して、真の長距離推論機能を実現するための高品質なトレーニングデータを生成する。
2)長期学習のための安定化強化学習:長文RLにおける臨界不安定性を克服するために,タスク特異的優位性推定を用いたタスクバランスサンプリングを導入し,探索・探索トレードオフを動的に制御する適応エントロピー制御政策最適化(AEPO)を提案する。
(3)ウルトラロングコンテキストのためのメモリ拡張アーキテクチャ:拡張されたコンテキストウィンドウでも任意に長いシーケンスを扱えないことを認識して,単一パス推論と4Mトークンを超えるタスクの反復メモリベースの処理をシームレスに統合する多段階融合RLトレーニングを備えたメモリ管理フレームワークを開発する。
Qwen3-30B-A3B-Thinkingに基づいて、QwenLong-L1.5は長文推論ベンチマークでGPT-5やGemini-2.5-Proに匹敵するパフォーマンスを達成し、ベースラインを平均9.90ポイント上回る。
超長いタスク(1M~4Mトークン)では、QwenLong-L1.5のメモリエージェントフレームワークはエージェントベースラインよりも9.48ポイント向上する。
さらに、取得した長文推論能力は、科学的推論、メモリツールの使用、拡張対話といった一般的な領域のパフォーマンスの向上に寄与する。
関連論文リスト
- QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T09:31:55Z) - Qwen2.5-1M Technical Report [72.09755998661568]
コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。
我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
論文 参考訳(メタデータ) (2025-01-26T03:47:25Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。