論文の概要: Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL
- arxiv url: http://arxiv.org/abs/2404.02113v2
- Date: Tue, 30 Apr 2024 16:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:58:59.610734
- Title: Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL
- Title(参考訳): 未知へのチューニング - 生涯RLの評価方略の再考
- Authors: Golnaz Mesbahi, Olya Mastikhina, Parham Mohammad Panahi, Martha White, Adam White,
- Abstract要約: ディープRLの標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境への未使用のアクセスを仮定することである。
本稿では, 寿命の長いRL研究の進展が, 不適切な経験的手法によって支えられているという考えを考察する。
いずれの手法も1パーセントのチューニングに制限された場合,性能が低下するのに対して,ネットワークの可塑性を維持するために設計されたアルゴリズム的緩和は驚くべき性能を発揮する。
- 参考スコア(独自算出の注目度): 17.952216813295117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In continual or lifelong reinforcement learning access to the environment should be limited. If we aspire to design algorithms that can run for long-periods of time, continually adapting to new, unexpected situations then we must be willing to deploy our agents without tuning their hyperparameters over the agent's entire lifetime. The standard practice in deep RL -- and even continual RL -- is to assume unfettered access to deployment environment for the full lifetime of the agent. This paper explores the notion that progress in lifelong RL research has been held back by inappropriate empirical methodologies. In this paper we propose a new approach for tuning and evaluating lifelong RL agents where only one percent of the experiment data can be used for hyperparameter tuning. We then conduct an empirical study of DQN and Soft Actor Critic across a variety of continuing and non-stationary domains. We find both methods generally perform poorly when restricted to one-percent tuning, whereas several algorithmic mitigations designed to maintain network plasticity perform surprising well. In addition, we find that properties designed to measure the network's ability to learn continually indeed correlate with performance under one-percent tuning.
- Abstract(参考訳): 持続的または生涯にわたる強化学習は、環境へのアクセスを制限するべきである。
もし私たちが、新しい予期せぬ状況に継続的に適応し、長期間実行可能なアルゴリズムを設計したいなら、エージェントの生涯にわたってハイパーパラメータを調整せずにエージェントをデプロイしなければなりません。
ディープRL(そして連続RL)の標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境へのフェッターのないアクセスを仮定することである。
本稿では, 寿命の長いRL研究の進展が, 不適切な経験的方法論によって支えられているという考えを考察する。
本稿では,実験データの1%しかハイパーパラメータチューニングに使用できない長寿命RLエージェントのチューニングと評価のための新しい手法を提案する。
次に、DQNとSoft Actor Criticの連続および非定常領域に関する実証的研究を行う。
いずれの手法も1パーセントのチューニングに制限された場合,性能が低下するのに対して,ネットワークの可塑性を維持するために設計されたアルゴリズム的緩和は驚くべき性能を発揮する。
さらに,ネットワークの学習能力を測定するために設計された特性は,1パーセントのチューニング下での性能と実際に相関していることがわかった。
関連論文リスト
- Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory [37.02104729448692]
EPICは生涯強化学習のための新しいアルゴリズムである。
テキストワールドポリシーと呼ばれる共有ポリシの配布を学習し、新しいタスクへの迅速な適応を可能にする。
様々な環境における実験により、EPICは寿命の長いRLにおいて既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-01T07:01:28Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report [117.23323653198297]
ユーザが経験した情報の鮮度と、センサが消費するエネルギーのバランスをとっています。
対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。
次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
論文 参考訳(メタデータ) (2021-04-13T12:29:55Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。