論文の概要: No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL
- arxiv url: http://arxiv.org/abs/2205.08716v1
- Date: Wed, 18 May 2022 04:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 19:31:14.406955
- Title: No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL
- Title(参考訳): no more pesky hyperparameters: rlのためのオフラインハイパーパラメータチューニング
- Authors: Han Wang, Archit Sakhadeo, Adam White, James Bell, Vincent Liu, Xutong
Zhao, Puer Liu, Tadashi Kozuno, Alona Fyshe, Martha White
- Abstract要約: オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
- 参考スコア(独自算出の注目度): 28.31529154045046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of reinforcement learning (RL) agents is sensitive to the
choice of hyperparameters. In real-world settings like robotics or industrial
control systems, however, testing different hyperparameter configurations
directly on the environment can be financially prohibitive, dangerous, or time
consuming. We propose a new approach to tune hyperparameters from offline logs
of data, to fully specify the hyperparameters for an RL agent that learns
online in the real world. The approach is conceptually simple: we first learn a
model of the environment from the offline data, which we call a calibration
model, and then simulate learning in the calibration model to identify
promising hyperparameters. We identify several criteria to make this strategy
effective, and develop an approach that satisfies these criteria. We
empirically investigate the method in a variety of settings to identify when it
is effective and when it fails.
- Abstract(参考訳): 強化学習(RL)エージェントの性能はハイパーパラメータの選択に敏感である。
しかし、ロボット工学や産業制御システムのような現実の環境では、異なるハイパーパラメータの設定を直接環境上でテストすることは、経済的に禁止され、危険であり、時間を要する可能性がある。
本稿では,リアルタイムに学習するRLエージェントのハイパーパラメータを完全に指定するために,オフラインログからハイパーパラメータをチューニングするための新しいアプローチを提案する。
この手法は、まずオフラインデータから環境のモデルを学び、それをキャリブレーションモデルと呼び、次にキャリブレーションモデルで学習をシミュレートし、期待できるハイパーパラメータを識別する。
この戦略を効果的にするためのいくつかの基準を特定し、これらの基準を満たすアプローチを開発する。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - Hyperparameters in Contextual RL are Highly Situational [16.328866317851183]
強化学習(Reinforcement Learning, RL)はゲームやシミュレーションにおいて顕著な成果を上げているが, 実世界の応用は環境条件の変化による不安定さに悩まされている。
我々は,HPO法で検出されるハイパーパラメータが問題にのみ依存するだけでなく,状態が環境力学をどの程度うまく記述しているかにも依存していることを示す。
論文 参考訳(メタデータ) (2022-12-21T09:38:18Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。
このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。
このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文 参考訳(メタデータ) (2022-08-09T04:40:11Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Hyperparameter Selection for Offline Reinforcement Learning [61.92834684647419]
オフライン強化学習(RLは、ログ化されたデータから純粋なもの)は、実世界のシナリオにRLテクニックをデプロイするための重要な道である。
既存のオフラインRLのためのハイパーパラメータ選択法は、オフライン仮定を破る。
論文 参考訳(メタデータ) (2020-07-17T15:30:38Z) - Robust Federated Learning Through Representation Matching and Adaptive
Hyper-parameters [5.319361976450981]
フェデレーション学習(Federated Learning)は、複数のクライアントに属するデータに対して単一のモデルをトレーニングする、分散されたプライバシ対応の学習シナリオである。
現在のフェデレーション学習手法は、異種クライアント側データ分散に苦慮している。
本稿では,局所モデルのばらつきを低減する表現マッチング手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T20:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。