論文の概要: RL in the Wild: Characterizing RLVR Training in LLM Deployment
- arxiv url: http://arxiv.org/abs/2509.25279v1
- Date: Mon, 29 Sep 2025 03:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.228179
- Title: RL in the Wild: Characterizing RLVR Training in LLM Deployment
- Title(参考訳): 野生のRL:LLM展開におけるRLVRトレーニングの特徴
- Authors: Jiecheng Zhou, Qinghao Hu, Yuyang Jin, Zerui Wang, Peng Sun, Yuzhe Gu, Wenwei Zhang, Mingshu Zhai, Xingcheng Zhang, Weiming Zhang,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は、その推論と理解能力を高めるために、ここ数ヶ月で急増している。
しかし、その複雑なデータフローと多様なタスクは、RLトレーニングシステムに重大な課題をもたらす。
システムの観点からは、RLVRの理解は限られている。
- 参考スコア(独自算出の注目度): 43.81962834561768
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are now widely used across many domains. With their rapid development, Reinforcement Learning with Verifiable Rewards (RLVR) has surged in recent months to enhance their reasoning and understanding abilities. However, its complex data flows and diverse tasks pose substantial challenges to RL training systems, and there is limited understanding of RLVR from a system perspective. To thoroughly understand the system challenges introduced by RLVR, we present a characterization study of RLVR tasks in our LLM deployment. Specifically, we investigate the distribution and variation trends of workloads across different RL tasks across training steps. We identify issues such as GPU idling caused by skewed sequence length distribution, inefficient parallel strategies in dynamically varying workloads, inefficient data management mechanisms, and load imbalance. We describe our observations and call for further investigation into the remaining open challenges. Furthermore, we propose PolyTrace benchmark suite to conduct evaluation with realistic workloads, and a practical use case validates that PolyTrace benchmark suite exhibits 94.7% accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は現在では多くのドメインで広く使われている。
Reinforcement Learning with Verifiable Rewards (RLVR)は、その急速な発展に伴い、その推論と理解能力を高めるために、ここ数ヶ月で急増している。
しかし、その複雑なデータフローと多様なタスクは、RLトレーニングシステムに重大な課題をもたらし、システムの観点からはRLVRの理解が限られている。
RLVRのシステム課題を深く理解するために,LLMデプロイメントにおけるRLVRタスクの特徴について述べる。
具体的には、トレーニングステップ間で異なるRLタスク間でのワークロードの分散と変動傾向について検討する。
我々は、スキューシーケンス長分布に起因するGPUアイドリング、動的に変化するワークロードにおける非効率な並列戦略、非効率なデータ管理機構、負荷不均衡などの問題を特定する。
我々は、我々の観察について述べ、残りのオープンな課題についてさらなる調査を求める。
さらに、現実的なワークロードで評価を行うためのPolyTraceベンチマークスイートを提案し、実用的なユースケースとして、PolyTraceベンチマークスイートが94.7%の精度を示すことを検証する。
関連論文リスト
- Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - A Survey of Continual Reinforcement Learning [37.12149196139624]
強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定問題を解決するための重要な機械学習パラダイムである。
タスクをまたいで一般化するRLの限られた能力は、動的および実世界の環境での適用性を制限する。
CRL(Continuous Reinforcement Learning)は、これらの制限に対処するための有望な研究方向として登場した。
論文 参考訳(メタデータ) (2025-06-27T03:10:20Z) - Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [12.087316618902433]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文 参考訳(メタデータ) (2025-05-24T07:28:29Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z) - A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。