論文の概要: No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL
- arxiv url: http://arxiv.org/abs/2205.08716v1
- Date: Wed, 18 May 2022 04:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 19:31:14.406955
- Title: No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL
- Title(参考訳): no more pesky hyperparameters: rlのためのオフラインハイパーパラメータチューニング
- Authors: Han Wang, Archit Sakhadeo, Adam White, James Bell, Vincent Liu, Xutong
Zhao, Puer Liu, Tadashi Kozuno, Alona Fyshe, Martha White
- Abstract要約: オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
- 参考スコア(独自算出の注目度): 28.31529154045046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of reinforcement learning (RL) agents is sensitive to the
choice of hyperparameters. In real-world settings like robotics or industrial
control systems, however, testing different hyperparameter configurations
directly on the environment can be financially prohibitive, dangerous, or time
consuming. We propose a new approach to tune hyperparameters from offline logs
of data, to fully specify the hyperparameters for an RL agent that learns
online in the real world. The approach is conceptually simple: we first learn a
model of the environment from the offline data, which we call a calibration
model, and then simulate learning in the calibration model to identify
promising hyperparameters. We identify several criteria to make this strategy
effective, and develop an approach that satisfies these criteria. We
empirically investigate the method in a variety of settings to identify when it
is effective and when it fails.
- Abstract(参考訳): 強化学習(RL)エージェントの性能はハイパーパラメータの選択に敏感である。
しかし、ロボット工学や産業制御システムのような現実の環境では、異なるハイパーパラメータの設定を直接環境上でテストすることは、経済的に禁止され、危険であり、時間を要する可能性がある。
本稿では,リアルタイムに学習するRLエージェントのハイパーパラメータを完全に指定するために,オフラインログからハイパーパラメータをチューニングするための新しいアプローチを提案する。
この手法は、まずオフラインデータから環境のモデルを学び、それをキャリブレーションモデルと呼び、次にキャリブレーションモデルで学習をシミュレートし、期待できるハイパーパラメータを識別する。
この戦略を効果的にするためのいくつかの基準を特定し、これらの基準を満たすアプローチを開発する。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Hyperparameters in Contextual RL are Highly Situational [16.328866317851183]
強化学習(Reinforcement Learning, RL)はゲームやシミュレーションにおいて顕著な成果を上げているが, 実世界の応用は環境条件の変化による不安定さに悩まされている。
我々は,HPO法で検出されるハイパーパラメータが問題にのみ依存するだけでなく,状態が環境力学をどの程度うまく記述しているかにも依存していることを示す。
論文 参考訳(メタデータ) (2022-12-21T09:38:18Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。
このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。
このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文 参考訳(メタデータ) (2022-08-09T04:40:11Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Hyperparameter Selection for Offline Reinforcement Learning [61.92834684647419]
オフライン強化学習(RLは、ログ化されたデータから純粋なもの)は、実世界のシナリオにRLテクニックをデプロイするための重要な道である。
既存のオフラインRLのためのハイパーパラメータ選択法は、オフライン仮定を破る。
論文 参考訳(メタデータ) (2020-07-17T15:30:38Z) - Robust Federated Learning Through Representation Matching and Adaptive
Hyper-parameters [5.319361976450981]
フェデレーション学習(Federated Learning)は、複数のクライアントに属するデータに対して単一のモデルをトレーニングする、分散されたプライバシ対応の学習シナリオである。
現在のフェデレーション学習手法は、異種クライアント側データ分散に苦慮している。
本稿では,局所モデルのばらつきを低減する表現マッチング手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T20:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。