論文の概要: Learning Rate-Free Reinforcement Learning: A Case for Model Selection with Non-Stationary Objectives
- arxiv url: http://arxiv.org/abs/2408.04046v1
- Date: Wed, 7 Aug 2024 18:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:29:51.370014
- Title: Learning Rate-Free Reinforcement Learning: A Case for Model Selection with Non-Stationary Objectives
- Title(参考訳): 学習速度自由強化学習--非定常対象を用いたモデル選択の場合
- Authors: Aida Afshar, Aldo Pacchiano,
- Abstract要約: モデル選択は強化学習アルゴリズムの失敗モードを改善するのに有効であることを示す。
本研究では,モデル選択法を用いて学習速度を最適に選択する学習速度自由強化学習のためのモデル選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.06443176759265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of reinforcement learning (RL) algorithms is sensitive to the choice of hyperparameters, with the learning rate being particularly influential. RL algorithms fail to reach convergence or demand an extensive number of samples when the learning rate is not optimally set. In this work, we show that model selection can help to improve the failure modes of RL that are due to suboptimal choices of learning rate. We present a model selection framework for Learning Rate-Free Reinforcement Learning that employs model selection methods to select the optimal learning rate on the fly. This approach of adaptive learning rate tuning neither depends on the underlying RL algorithm nor the optimizer and solely uses the reward feedback to select the learning rate; hence, the framework can input any RL algorithm and produce a learning rate-free version of it. We conduct experiments for policy optimization methods and evaluate various model selection strategies within our framework. Our results indicate that data-driven model selection algorithms are better alternatives to standard bandit algorithms when the optimal choice of hyperparameter is time-dependent and non-stationary.
- Abstract(参考訳): 強化学習(RL)アルゴリズムの性能は、ハイパーパラメータの選択に敏感であり、学習速度は特に影響を及ぼす。
RLアルゴリズムは、学習率が最適に設定されていない場合、収束に至らないか、広範囲のサンプルを要求する。
本研究では,モデル選択が学習速度の最適下選択に起因するRLの障害モードの改善に役立つことを示す。
本研究では,モデル選択法を用いて学習速度を最適に選択する学習速度自由強化学習のためのモデル選択フレームワークを提案する。
適応学習率チューニングのアプローチは、基礎となるRLアルゴリズムにもオプティマイザにも依存せず、学習率を選択するためにのみ報酬フィードバックを使用するため、フレームワークは任意のRLアルゴリズムを入力し、学習率のないバージョンを生成することができる。
政策最適化手法の実験を行い、フレームワーク内の様々なモデル選択戦略を評価する。
この結果から,ハイパーパラメータの最適選択が時間依存であり,非定常である場合,データ駆動モデル選択アルゴリズムが標準バンディットアルゴリズムの代替となることが示唆された。
関連論文リスト
- Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Optimal Sequential Decision-Making in Geosteering: A Reinforcement
Learning Approach [0.0]
ジオステアリングと呼ばれる掘削プロセス全体の軌道調整決定は、その後の選択や情報収集に影響を与える。
本研究では,決定環境から直接学習するモデルフリー強化学習(RL)手法であるDeep Q-Network(DQN)手法を用いる。
これまでに2つの合成ジオステアリングシナリオに対して,RLは準最適ADPに匹敵する高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2023-10-07T10:49:30Z) - Reinforcement Learning with Partial Parametric Model Knowledge [3.3598755777055374]
我々は,環境の完全無知と完全知識のギャップを埋めるために,継続的制御のための強化学習手法を適用した。
本手法は,モデルフリーRLとモデルベース制御の両方からインスピレーションを得て,PLSPI(Partial Knowledge Least Squares Policy Iteration)を提案する。
論文 参考訳(メタデータ) (2023-04-26T01:04:35Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Learning to Select Base Classes for Few-shot Classification [96.92372639495551]
我々は、数ショットモデルの一般化性能を示す指標として、類似度比を用いる。
次に、類似度比に対する部分モジュラー最適化問題として基底クラス選択問題を定式化する。
論文 参考訳(メタデータ) (2020-04-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。