論文の概要: GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
- arxiv url: http://arxiv.org/abs/2605.19577v1
- Date: Tue, 19 May 2026 09:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.226436
- Title: GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment
- Title(参考訳): GoLongRL:マルチタスクアライメントによる機能指向長コンテキスト強化学習
- Authors: Minxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li,
- Abstract要約: GoLongRLは、長文強化学習のための能力指向のポストトレーニングレシピで、検証可能な報酬がある。
オープンに、23K RLVRサンプルのデータセット、完全な構築パイプライン、すべてのトレーニングコードをリリースしています。
同じバニラGRPOセットアップの下では、私たちのデータセットはクローズドソースのQwenLong-L1.5データセットよりも優れています。
- 参考スコア(独自算出の注目度): 46.47136353104916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GoLongRL, a fully open-source, capability-oriented post-training recipe for long-context reinforcement learning with verifiable rewards (RLVR). Existing long-context RL methods often treat data construction as a matter of designing increasingly complex retrieval paths, leading to homogeneous task coverage and reward formulations that inadequately reflect practical long-context requirements. Our work offers two contributions. (1) Capability-oriented data construction with full open release. We openly release a dataset of 23K RLVR samples, the complete construction pipeline, and all training code. Guided by a taxonomy of long-context capabilities, the dataset spans 9 task types, each paired with its natural evaluation metric. It comprises curated open-source samples from established corpora and synthetic samples whose QA pairs are generated from real source documents such as books, academic papers, and multi-turn dialogues. Under the same vanilla GRPO setup, our dataset alone outperforms the closed-source QwenLong-L1.5 dataset. Moreover, our Qwen3-30B-A3B model trained on this data delivers long-context performance comparable to DeepSeek-R1-0528 and Qwen3-235B-A22B-Thinking-2507, suggesting that broader coverage and greater reward diversity substantially benefit long-context capability improvement. (2) TMN-Reweight for heterogeneous multitask optimization. To address optimization challenges from heterogeneous rewards, we propose TMN-Reweight, which combines task-level mean normalization for cross-task reward scale alignment with difficulty-adaptive weighting for more reliable advantage estimation. TMN-Reweight further improves average performance over vanilla GRPO, with general capabilities preserved or improved across reported evaluations.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた長文強化学習のための,完全オープンソースで機能指向のポストトレーニングレシピであるGoLongRLを提案する。
既存の長いコンテキストRL法は、データ構築を、ますます複雑な検索経路を設計する問題として扱うことが多く、これは、実際的な長いコンテキストの要求を適切に反映しない均質なタスクカバレッジと報酬の定式化に繋がる。
私たちの仕事は2つの貢献をする。
1) 完全開放型機能指向データ構築。
オープンに、23K RLVRサンプルのデータセット、完全な構築パイプライン、すべてのトレーニングコードをリリースしています。
長いコンテキスト能力の分類によってガイドされ、データセットは9つのタスクタイプにまたがっており、それぞれがその自然な評価基準とペアになっている。
確立されたコーパスのオープンソースサンプルと、書籍、学術論文、マルチターン対話などの実際のソース文書からQAペアを生成する合成サンプルを含む。
同じバニラGRPOセットアップの下では、私たちのデータセットはクローズドソースのQwenLong-L1.5データセットよりも優れています。
さらに、このデータに基づいてトレーニングされたQwen3-30B-A3Bモデルでは、DeepSeek-R1-0528やQwen3-235B-A22B-Thinking-2507に匹敵する長文パフォーマンスを実現しています。
2) TMN-Reweight for heterogeneous multitask optimization。
不均一な報酬からの最適化課題を解決するために,タスクレベルの平均正規化と,より信頼性の高い優位性推定のための困難適応重み付けを組み合わせたTMN-Reweightを提案する。
TMN-ReweightはバニラGRPOよりも平均性能を向上し、報告された評価を総合的に維持または改善する。
関連論文リスト
- MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。
実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-19T16:33:55Z) - Generalized Reinforcement Learning for Retriever-Specific Query Rewriter with Unstructured Real-World Documents [4.200973008100858]
textbfRL-QRは、レトリバー固有のクエリ書き換えのための強化学習フレームワークである。
RL-QRは、特定のレトリバー用に調整されたクエリリライトを訓練し、さまざまなドメインにわたる検索性能を向上する。
以上の結果から, RL-QRがRAGシステムのクエリ最適化に革命をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-31T04:55:21Z) - WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。
本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文 参考訳(メタデータ) (2025-06-09T16:20:54Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [49.2709992932292]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文 参考訳(メタデータ) (2025-03-10T10:52:50Z) - WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。
クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。
ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文 参考訳(メタデータ) (2025-02-23T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。