論文の概要: SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
- arxiv url: http://arxiv.org/abs/2601.04809v2
- Date: Wed, 14 Jan 2026 13:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:40.993148
- Title: SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
- Title(参考訳): SCALER:推論のための合成スケーラブル適応学習環境
- Authors: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を高めるための原則的な方法である。
実際には、RLの進捗は、タスクの難しさがモデル能力と整合しなくなると遅くなります。
本稿では,適応環境設計による効果的な学習信号を維持する枠組みを提案する。
- 参考スコア(独自算出の注目度): 24.80806018678682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を高めるための原則的な方法である。
実際に、RLの進捗は、タスクの難易度がモデル能力と不整合になったり、トレーニングが繰り返し発生する問題パターンの狭いセットで支配される場合、しばしば遅くなります。
これらの課題に共同で対処するために,適応環境設計を通じて効果的な学習信号を保持するSCALER(Synthetic sCalable Adaptive Learning Environment for Reasoning)を提案する。
SCALERはスケーラブルな合成パイプラインを導入し、現実世界のプログラミング問題を制御不能な難易度と無制限なインスタンス生成で検証可能な推論環境に変換する。
これに基づいてSCALERはさらに適応的なマルチ環境RL戦略を採用し、インスタンスの難易度を動的に調整し、アクティブな環境セットを計算してモデルの能力フロンティアを追跡し、分散の多様性を維持する。
この適応は報酬の分散を防ぎ、狭いタスクパターンへの過度な適合を軽減し、トレーニングを通じて継続的な改善をサポートする。
大規模な実験によると、SCALERはさまざまな推論ベンチマークでデータセットベースのRLベースラインを一貫して上回り、より安定した長期トレーニングのダイナミクスを示している。
関連論文リスト
- Online Adaptive Reinforcement Learning with Echo State Networks for Non-Stationary Dynamics [0.5745796568988237]
本稿では,Reservoir Computingに基づく強化学習のための軽量オンライン適応フレームワークを提案する。
具体的には,Echo State Networks (ESNs) を適応モジュールとして統合し,最近の観測履歴を潜在文脈表現にエンコードする。
厳しい環境変化を伴うCartPoleおよびHalfCheetahタスクに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2026-02-06T02:51:01Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Don't Just Fine-tune the Agent, Tune the Environment [25.7349297100143]
合成データの微調整の監督は、過度な適合につながる。
標準的な強化学習は、重要なコールドスタート問題とトレーニング不安定性に苦慮している。
本研究は,静的軌道の教師付き微調整から動的環境探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-10-11T12:35:15Z) - Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。