論文の概要: Hyperparameters in Contextual RL are Highly Situational
- arxiv url: http://arxiv.org/abs/2212.10876v1
- Date: Wed, 21 Dec 2022 09:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:22:23.164636
- Title: Hyperparameters in Contextual RL are Highly Situational
- Title(参考訳): 文脈RLのハイパーパラメータは高次状態である
- Authors: Theresa Eimer, Carolin Benjamins, Marius Lindauer
- Abstract要約: 強化学習(Reinforcement Learning, RL)はゲームやシミュレーションにおいて顕著な成果を上げているが, 実世界の応用は環境条件の変化による不安定さに悩まされている。
我々は,HPO法で検出されるハイパーパラメータが問題にのみ依存するだけでなく,状態が環境力学をどの程度うまく記述しているかにも依存していることを示す。
- 参考スコア(独自算出の注目度): 16.328866317851183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Reinforcement Learning (RL) has shown impressive results in games
and simulation, real-world application of RL suffers from its instability under
changing environment conditions and hyperparameters. We give a first impression
of the extent of this instability by showing that the hyperparameters found by
automatic hyperparameter optimization (HPO) methods are not only dependent on
the problem at hand, but even on how well the state describes the environment
dynamics. Specifically, we show that agents in contextual RL require different
hyperparameters if they are shown how environmental factors change. In
addition, finding adequate hyperparameter configurations is not equally easy
for both settings, further highlighting the need for research into how
hyperparameters influence learning and generalization in RL.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)はゲームやシミュレーションで顕著な成果を上げているが, 実世界のRLの応用は環境条件やハイパーパラメータの変化による不安定さに悩まされている。
自動過度パラメータ最適化法(HPO)法で検出されるハイパーパラメータは、その問題だけでなく、状態が環境力学をどの程度うまく記述しているかにも依存していることを示すことで、この不安定性の範囲を初めて印象付ける。
具体的には、環境要因の変化を示す場合、文脈RLのエージェントは異なるハイパーパラメータを必要とすることを示す。
さらに、適切なハイパーパラメータの設定を見つけることは、両方の設定で等しく簡単ではなく、ハイパーパラメータがrlにおける学習と一般化にどのように影響を与えるかの研究の必要性をさらに強調する。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - A Framework for History-Aware Hyperparameter Optimisation in
Reinforcement Learning [8.659973888018781]
強化学習(RL)システムは、システムの性能に影響を与える一連の初期条件に依存する。
これらのトレードオフを軽減するため,複雑なイベント処理と時間モデルの統合に基づくフレームワークを提案する。
提案手法を,RLの変種であるDQNを用いた5Gモバイル通信ケーススタディで検証した。
論文 参考訳(メタデータ) (2023-03-09T11:30:40Z) - No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL [28.31529154045046]
オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
論文 参考訳(メタデータ) (2022-05-18T04:26:23Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Hyperparameter Selection for Offline Reinforcement Learning [61.92834684647419]
オフライン強化学習(RLは、ログ化されたデータから純粋なもの)は、実世界のシナリオにRLテクニックをデプロイするための重要な道である。
既存のオフラインRLのためのハイパーパラメータ選択法は、オフライン仮定を破る。
論文 参考訳(メタデータ) (2020-07-17T15:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。