論文の概要: SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
- arxiv url: http://arxiv.org/abs/2601.04809v1
- Date: Thu, 08 Jan 2026 10:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.166562
- Title: SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
- Title(参考訳): SCALER:推論のための合成スケーラブル適応学習環境
- Authors: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を高めるための原則的な方法である。
実際には、RLの進捗は、タスクの難しさがモデル能力と整合しなくなると遅くなります。
本稿では,適応環境設計による効果的な学習信号を維持する枠組みを提案する。
- 参考スコア(独自算出の注目度): 24.80806018678682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を高めるための原則的な方法である。
実際に、RLの進捗は、タスクの難易度がモデル能力と不整合になったり、トレーニングが繰り返し発生する問題パターンの狭いセットで支配される場合、しばしば遅くなります。
これらの課題に共同で対処するために,適応環境設計を通じて効果的な学習信号を保持するSCALER(Synthetic sCalable Adaptive Learning Environment for Reasoning)を提案する。
SCALERはスケーラブルな合成パイプラインを導入し、現実世界のプログラミング問題を制御不能な難易度と無制限なインスタンス生成で検証可能な推論環境に変換する。
これに基づいてSCALERはさらに適応的なマルチ環境RL戦略を採用し、インスタンスの難易度を動的に調整し、アクティブな環境セットを計算してモデルの能力フロンティアを追跡し、分散の多様性を維持する。
この適応は報酬の分散を防ぎ、狭いタスクパターンへの過度な適合を軽減し、トレーニングを通じて継続的な改善をサポートする。
大規模な実験によると、SCALERはさまざまな推論ベンチマークでデータセットベースのRLベースラインを一貫して上回り、より安定した長期トレーニングのダイナミクスを示している。
関連論文リスト
- Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。