論文の概要: Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.05760v1
- Date: Fri, 06 Jun 2025 05:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.336296
- Title: Writing-RL: Advancing Long-form Writing via Adaptive Curriculum Reinforcement Learning
- Title(参考訳): 書字-RL:適応的カリキュラム強化学習による長文書字の強化
- Authors: Xuanyu Lei, Chenliang Li, Yuning Wu, Kaiming Liu, Weizhou Shen, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Yang Liu,
- Abstract要約: 本稿では,適応型カリキュラム強化学習フレームワーク「Ling-RL: An Adaptive Curriculum Reinforcement Learning」について紹介する。
フレームワークは3つの重要なコンポーネントで構成されている。高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、差別的な学習信号を提供するPairwise Comparison Rewardメカニズム、動的参照スケジューリングアプローチである。
- 参考スコア(独自算出の注目度): 55.41828729623907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled strong performance in long-form writing, yet existing supervised fine-tuning (SFT) approaches suffer from limitations such as data saturation and restricted learning capacity bounded by teacher signals. In this work, we present Writing-RL: an Adaptive Curriculum Reinforcement Learning framework to advance long-form writing capabilities beyond SFT. The framework consists of three key components: Margin-aware Data Selection strategy that prioritizes samples with high learning potential, Pairwise Comparison Reward mechanism that provides discriminative learning signals in the absence of verifiable rewards, and Dynamic Reference Scheduling approach, which plays a particularly critical role by adaptively adjusting task difficulty based on evolving model performance. Experiments on 7B-scale writer models show that our RL framework largely improves long-form writing performance over strong SFT baselines. Furthermore, we observe that models trained with long-output RL generalize surprisingly well to long-input reasoning tasks, potentially offering a promising perspective for rethinking long-context training.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩により、長文の書き込みにおいて強力なパフォーマンスを実現しているが、既存の教師付き微調整(SFT)アプローチは、データ飽和や教師信号による制限付き学習能力といった制限に悩まされている。
本研究では,SFTを超えた長文記述能力を向上させるための適応的カリキュラム強化学習フレームワークであるLing-RLを提案する。
このフレームワークは、高い学習可能性を持つサンプルを優先するMargin-aware Data Selection戦略、検証可能な報酬がない場合に識別的な学習信号を提供するPairwise Comparison Rewardメカニズム、モデル性能の進化に基づいてタスクの困難を適応的に調整することで特に重要な役割を果たすDynamic Reference Schedulingアプローチの3つの主要なコンポーネントで構成されている。
7Bスケールの書き手モデルによる実験により、我々のRLフレームワークは、強力なSFTベースラインよりも長い書込み性能を大幅に向上することが示された。
さらに、長期出力RLでトレーニングされたモデルが、長期出力推論タスクに驚くほどよく一般化し、長期コンテキストトレーニングを再考するための有望な視点を提供する可能性があることを観察した。
関連論文リスト
- SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。
複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。
さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T13:53:28Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Demystifying Long Chain-of-Thought Reasoning in LLMs [46.352406501403465]
ロングチェーン・オブ・シント(CoT)は、バックトラックやエラー修正のような戦略を可能にする。
強化学習(Reinforcement Learning, RL)は、これらの能力を開発する上で重要な方法である。
モデルが長いCoT軌道を生成できる重要な要素を同定する。
論文 参考訳(メタデータ) (2025-02-05T17:13:32Z) - Structured Packing in LLM Training Improves Long Context Utilization [11.484631908171465]
本研究では,意味的相互依存を高めるための学習データの構造化について検討する。
本研究では,SPLiCe(Structured Packing for Long Context)法を提案する。
我々はSPLiCeを様々なサイズのモデルで実証的に検証した。
論文 参考訳(メタデータ) (2023-12-28T16:25:52Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。