論文の概要: Improved Training Mechanism for Reinforcement Learning via Online Model Selection
- arxiv url: http://arxiv.org/abs/2512.02214v1
- Date: Mon, 01 Dec 2025 21:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.614396
- Title: Improved Training Mechanism for Reinforcement Learning via Online Model Selection
- Title(参考訳): オンラインモデル選択による強化学習の学習機構の改善
- Authors: Aida Afshar, Aldo Pacchiano,
- Abstract要約: 強化学習におけるオンラインモデル選択の課題について検討し、そこでは、セレクタが強化学習エージェントのクラスにアクセスでき、適切な構成でエージェントを適応的に選択することを学ぶ。
本研究の目的は,オンラインモデル選択手法を強化学習訓練手法に統合することにより,効率の向上と性能向上を実現することである。
- 参考スコア(独自算出の注目度): 25.377745631929557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of online model selection in reinforcement learning, where the selector has access to a class of reinforcement learning agents and learns to adaptively select the agent with the right configuration. Our goal is to establish the improved efficiency and performance gains achieved by integrating online model selection methods into reinforcement learning training procedures. We examine the theoretical characterizations that are effective for identifying the right configuration in practice, and address three practical criteria from a theoretical perspective: 1) Efficient resource allocation, 2) Adaptation under non-stationary dynamics, and 3) Training stability across different seeds. Our theoretical results are accompanied by empirical evidence from various model selection tasks in reinforcement learning, including neural architecture selection, step-size selection, and self model selection.
- Abstract(参考訳): 強化学習におけるオンラインモデル選択の問題について検討し、そこでは、セレクタが強化学習エージェントのクラスにアクセスでき、適切な構成でエージェントを適応的に選択することを学ぶ。
本研究の目的は,オンラインモデル選択手法を強化学習訓練手法に統合することにより,効率の向上と性能向上を実現することである。
適切な構成の特定に有効な理論的特徴について検討し、理論的観点から3つの実践的基準に対処する。
1)効率的な資源配分
2)非定常力学による適応、及び
3)異なる種子間での安定性の訓練。
我々の理論的結果は、ニューラルネットワークの選択、ステップサイズの選択、自己モデル選択など、強化学習における様々なモデル選択タスクの実証的証拠を伴っている。
関連論文リスト
- Sensitivity of Stability: Theoretical & Empirical Analysis of Replicability for Adaptive Data Selection in Transfer Learning [3.6644458768861945]
適応効率と結果整合性の基本的なトレードオフを定量化する数学的枠組みを導入する。
グラデーションベースやカリキュラム学習のような高度適応戦略が優れたタスク性能を実現するが、高い複製性障害率に悩まされていることを示す。
また、ソースドメイン事前トレーニングは、パフォーマンス向上を維持しながら、障害率を最大30%削減する強力な緩和メカニズムを提供することを示した。
論文 参考訳(メタデータ) (2025-08-06T21:56:56Z) - Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。
実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文 参考訳(メタデータ) (2025-06-26T17:25:49Z) - P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training [22.61313628957683]
本稿では、反復データプルーニングによるタスク固有の微調整プロセスの最適化を目的とした適応型フレームワークであるP3を紹介する。
P3は、政策駆動型困難度測定、ペース適応選択、多様性促進の3つの主要な構成要素で構成されている。
我々は,従来のデータプルーニング手法に対して,P3を推論シナリオであるAPPSとMATHで検証し,大幅な改善を示した。
論文 参考訳(メタデータ) (2024-08-10T12:44:49Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - AutoFS: Automated Feature Selection via Diversity-aware Interactive
Reinforcement Learning [34.33231470225591]
自動特徴選択における効率と効率のバランスの問題について検討する。
このような計算ジレンマに動機づけられた本研究は,新しい特徴空間ナビゲーション手法を開発することを目的とする。
論文 参考訳(メタデータ) (2020-08-27T09:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。