論文の概要: A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.05186v1
- Date: Thu, 9 Mar 2023 11:30:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:07:50.239327
- Title: A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning
- Title(参考訳): 強化学習における履歴認識ハイパーパラメータ最適化の枠組み
- Authors: Juan Marcelo Parra-Ullauri, Chen Zhen, Antonio Garc\'ia-Dom\'inguez,
Nelly Bencomo, Changgang Zheng, Juan Boubeta-Puig, Guadalupe Ortiz, Shufan
Yang
- Abstract要約: 強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
- 参考スコア(独自算出の注目度): 8.659973888018781
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A Reinforcement Learning (RL) system depends on a set of initial conditions
(hyperparameters) that affect the system's performance. However, defining a
good choice of hyperparameters is a challenging problem.
Hyperparameter tuning often requires manual or automated searches to find
optimal values. Nonetheless, a noticeable limitation is the high cost of
algorithm evaluation for complex models, making the tuning process
computationally expensive and time-consuming.
In this paper, we propose a framework based on integrating complex event
processing and temporal models, to alleviate these trade-offs. Through this
combination, it is possible to gain insights about a running RL system
efficiently and unobtrusively based on data stream monitoring and to create
abstract representations that allow reasoning about the historical behaviour of
the RL system. The obtained knowledge is exploited to provide feedback to the
RL system for optimising its hyperparameters while making effective use of
parallel resources.
We introduce a novel history-aware epsilon-greedy logic for hyperparameter
optimisation that instead of using static hyperparameters that are kept fixed
for the whole training, adjusts the hyperparameters at runtime based on the
analysis of the agent's performance over time windows in a single agent's
lifetime. We tested the proposed approach in a 5G mobile communications case
study that uses DQN, a variant of RL, for its decision-making. Our experiments
demonstrated the effects of hyperparameter tuning using history on training
stability and reward values. The encouraging results show that the proposed
history-aware framework significantly improved performance compared to
traditional hyperparameter tuning approaches.
- Abstract(参考訳): 強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件(ハイパーパラメータ)に依存する。
しかし、ハイパーパラメータのよい選択を定義することは難しい問題である。
ハイパーパラメータチューニングは、最適な値を見つけるために手動または自動検索を必要とすることが多い。
それでも、複雑なモデルに対するアルゴリズム評価のコストが高く、チューニングプロセスは計算コストが高く、時間がかかる。
本稿では,複雑なイベント処理と時間モデルを統合し,これらのトレードオフを緩和する枠組みを提案する。
この組み合わせにより、データストリーム監視に基づいて、実行中のRLシステムに関する洞察を効率的かつ控えめに得ることができ、RLシステムの歴史的な振る舞いを推論できる抽象表現を作成することができる。
得られた知識を利用して、並列リソースを効果的に活用しながら、そのハイパーパラメータを最適化するためのRLシステムへのフィードバックを提供する。
トレーニング全体に対して固定された静的なハイパーパラメータを代わりに使用するのではなく,エージェントの時間的ウィンドウにおける性能の分析に基づいて,実行時のハイパーパラメータを調整する,ヒストリを意識したエプシロンの最適化手法を提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
実験では、履歴を用いたハイパーパラメータチューニングがトレーニング安定性と報酬値に及ぼす影響を実証した。
提案した履歴認識フレームワークは,従来のハイパーパラメータチューニング手法に比べて性能が大幅に向上した。
関連論文リスト
- Efficient Hyperparameter Importance Assessment for CNNs [1.7778609937758323]
本稿では,畳み込みニューラルネットワーク(CNN)におけるハイパーパラメータの重み付けを,N-RReliefFというアルゴリズムを用いて定量化する。
我々は10の人気のある画像分類データセットから1万以上のCNNモデルをトレーニングし、広範囲にわたる研究を行う。
論文 参考訳(メタデータ) (2024-10-11T15:47:46Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL [28.31529154045046]
オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
論文 参考訳(メタデータ) (2022-05-18T04:26:23Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Automatic tuning of hyper-parameters of reinforcement learning
algorithms using Bayesian optimization with behavioral cloning [0.0]
強化学習(RL)では、学習エージェントが収集したデータの情報内容は多くのハイパーパラメータの設定に依存する。
本研究では,ベイズ最適化を用いた自律的ハイパーパラメータ設定手法を提案する。
実験は、他の手作業による調整や最適化ベースのアプローチと比較して、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-15T13:10:44Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。