Fugu-MT 論文翻訳(概要): No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL

論文の概要: No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL

arxiv url: http://arxiv.org/abs/2205.08716v1
Date: Wed, 18 May 2022 04:26:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-19 19:31:14.406955
Title: No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL
Title（参考訳）: no more pesky hyperparameters: rlのためのオフラインハイパーパラメータチューニング
Authors: Han Wang, Archit Sakhadeo, Adam White, James Bell, Vincent Liu, Xutong Zhao, Puer Liu, Tadashi Kozuno, Alona Fyshe, Martha White
Abstract要約: オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
参考スコア（独自算出の注目度）: 28.31529154045046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The performance of reinforcement learning (RL) agents is sensitive to the choice of hyperparameters. In real-world settings like robotics or industrial control systems, however, testing different hyperparameter configurations directly on the environment can be financially prohibitive, dangerous, or time consuming. We propose a new approach to tune hyperparameters from offline logs of data, to fully specify the hyperparameters for an RL agent that learns online in the real world. The approach is conceptually simple: we first learn a model of the environment from the offline data, which we call a calibration model, and then simulate learning in the calibration model to identify promising hyperparameters. We identify several criteria to make this strategy effective, and develop an approach that satisfies these criteria. We empirically investigate the method in a variety of settings to identify when it is effective and when it fails.
Abstract（参考訳）: 強化学習(RL)エージェントの性能はハイパーパラメータの選択に敏感である。しかし、ロボット工学や産業制御システムのような現実の環境では、異なるハイパーパラメータの設定を直接環境上でテストすることは、経済的に禁止され、危険であり、時間を要する可能性がある。本稿では,リアルタイムに学習するRLエージェントのハイパーパラメータを完全に指定するために,オフラインログからハイパーパラメータをチューニングするための新しいアプローチを提案する。この手法は、まずオフラインデータから環境のモデルを学び、それをキャリブレーションモデルと呼び、次にキャリブレーションモデルで学習をシミュレートし、期待できるハイパーパラメータを識別する。この戦略を効果的にするためのいくつかの基準を特定し、これらの基準を満たすアプローチを開発する。我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。

関連論文リスト

Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文参考訳（メタデータ） (2024-04-08T20:02:19Z)
AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文参考訳（メタデータ） (2023-04-05T12:14:41Z)
A Framework for History-Aware Hyperparameter Optimisation in Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文参考訳（メタデータ） (2023-03-09T11:30:40Z)
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-02-18T23:31:20Z)
Hyperparameters in Contextual RL are Highly Situational [16.328866317851183]
強化学習(Reinforcement Learning, RL)はゲームやシミュレーションにおいて顕著な成果を上げているが, 実世界の応用は環境条件の変化による不安定さに悩まされている。我々は,HPO法で検出されるハイパーパラメータが問題にのみ依存するだけでなく,状態が環境力学をどの程度うまく記述しているかにも依存していることを示す。
論文参考訳（メタデータ） (2022-12-21T09:38:18Z)
Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文参考訳（メタデータ） (2022-09-29T19:57:43Z)
Automating DBSCAN via Deep Reinforcement Learning [73.82740568765279]
本稿では,DBSCANの自動パラメータ検索フレームワークであるDRL-DBSCANを提案する。このフレームワークは、クラスタリング環境をマルコフ決定プロセスとして知覚することで、パラメータ探索方向を調整する過程をモデル化する。このフレームワークはDBSCANクラスタリングの精度を最大で26%、25%改善している。
論文参考訳（メタデータ） (2022-08-09T04:40:11Z)
AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-03-15T19:25:01Z)
Hyperparameter Selection for Offline Reinforcement Learning [61.92834684647419]
オフライン強化学習(RLは、ログ化されたデータから純粋なもの)は、実世界のシナリオにRLテクニックをデプロイするための重要な道である。既存のオフラインRLのためのハイパーパラメータ選択法は、オフライン仮定を破る。
論文参考訳（メタデータ） (2020-07-17T15:30:38Z)
Robust Federated Learning Through Representation Matching and Adaptive Hyper-parameters [5.319361976450981]
フェデレーション学習(Federated Learning)は、複数のクライアントに属するデータに対して単一のモデルをトレーニングする、分散されたプライバシ対応の学習シナリオである。現在のフェデレーション学習手法は、異種クライアント側データ分散に苦慮している。本稿では,局所モデルのばらつきを低減する表現マッチング手法を提案する。
論文参考訳（メタデータ） (2019-12-30T20:19:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。