論文の概要: Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.04786v1
- Date: Mon, 06 Oct 2025 13:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.87129
- Title: Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning
- Title(参考訳): 職種学習: 目標強化学習のためのテスト時間カリキュラム
- Authors: Jonas Hübotter, Leander Diaz-Bone, Ido Hakimi, Andreas Krause, Moritz Hardt,
- Abstract要約: 本稿では,タスク固有のカリキュラムを組み立て,強化学習を適用して目標タスクのモデルのトレーニングを継続するエージェントを提案する。
テストタイムカリキュラムは、タスク関連データを自動的に選択することで、データセットの時間を要する人によるキュレーションを避ける。
実験により,テストタイムのカリキュラム上での強化学習は,目標タスクにおけるモデルの改善を継続的に行うことを示した。
- 参考スコア(独自算出の注目度): 51.34470146576741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are good at learning on the job: We learn how to solve the tasks we face as we go along. Can a model do the same? We propose an agent that assembles a task-specific curriculum, called test-time curriculum (TTC-RL), and applies reinforcement learning to continue training the model for its target task. The test-time curriculum avoids time-consuming human curation of datasets by automatically selecting the most task-relevant data from a large pool of available training data. Our experiments demonstrate that reinforcement learning on a test-time curriculum consistently improves the model on its target tasks, across a variety of evaluations and models. Notably, on challenging math and coding benchmarks, TTC-RL improves the pass@1 of Qwen3-8B by approximately 1.8x on AIME25 and 2.1x on CodeElo. Moreover, we find that TTC-RL significantly raises the performance ceiling compared to the initial model, increasing pass@8 on AIME25 from 40% to 62% and on CodeElo from 28% to 43%. Our findings show the potential of test-time curricula in extending the test-time scaling paradigm to continual training on thousands of task-relevant experiences during test-time.
- Abstract(参考訳): 人間は仕事について学ぶのが得意です。
モデルも同じことができますか?
本稿では,テストタイムカリキュラム(TTC-RL)と呼ばれる,タスク固有のカリキュラムを組み立てるエージェントを提案する。
テストタイムカリキュラムは、利用可能なトレーニングデータの大規模なプールから最もタスク関連のデータを自動的に選択することにより、データセットの時間を要する人的キュレーションを回避する。
実験の結果,テストタイムのカリキュラム上での強化学習は,様々な評価やモデルを用いて,目標タスクのモデルを継続的に改善することがわかった。
特に、挑戦的な数学とコーディングのベンチマークでは、TC-RLはQwen3-8Bのパス@1をAIME25の約1.8倍、CodeEloの2.1倍改善している。
さらに, TTC-RLは初期モデルと比較して性能の上限を著しく高くし, AIME25ではパス@8が40%から62%, CodeEloでは28%から43%に増加した。
本研究は, テスト時間スケーリングパラダイムを, 何千ものタスク関連経験の継続トレーニングに拡張する上で, テスト時間カリキュラムの可能性を示すものである。
関連論文リスト
- Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Training on the Test Task Confounds Evaluation and Emergence [16.32378359459614]
テストタスクのトレーニングは、相対モデル評価と創発的能力に関するクレームの両方に矛盾があることを示します。
ベンチマーク評価において,テストタスクに対するトレーニングの効果を効果的に調整する手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T17:57:58Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Meta-Reinforcement Learning for Heuristic Planning [12.462608802359936]
メタ強化学習(Meta-Reinforcement Learning、Meta-RL)では、エージェントは、新しい、見えない、しかし関連するタスクの準備と学習のために一連のタスクで訓練される。
トレーニングタスクのセットが与えられた場合、トレーニングタスクが適切に選択された場合、学習はより迅速かつ効果的であることを示します。
本稿では,情報理論に基づくタスク選択アルゴリズムITTSを提案する。
論文 参考訳(メタデータ) (2021-07-06T13:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。