Fugu-MT 論文翻訳(概要): Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL

論文の概要: Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL

arxiv url: http://arxiv.org/abs/2404.02113v1
Date: Tue, 2 Apr 2024 17:13:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 15:30:03.134637
Title: Tuning for the Unknown: Revisiting Evaluation Strategies for Lifelong RL
Title（参考訳）: 未知へのチューニング - 生涯RLの評価方略の再考
Authors: Golnaz Mesbahi, Olya Mastikhina, Parham Mohammad Panahi, Martha White, Adam White,
Abstract要約: ディープRLの標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境への未使用のアクセスを仮定することである。本稿では, 寿命の長いRL研究の進展が, 不適切な経験的手法によって支えられているという考えを考察する。いずれの手法も1パーセントのチューニングに制限された場合,性能が低下するのに対して,ネットワークの可塑性を維持するために設計されたアルゴリズム的緩和は驚くべき性能を発揮する。
参考スコア（独自算出の注目度）: 17.952216813295117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In continual or lifelong reinforcement learning access to the environment should be limited. If we aspire to design algorithms that can run for long-periods of time, continually adapting to new, unexpected situations then we must be willing to deploy our agents without tuning their hyperparameters over the agent's entire lifetime. The standard practice in deep RL -- and even continual RL -- is to assume unfettered access to deployment environment for the full lifetime of the agent. This paper explores the notion that progress in lifelong RL research has been held back by inappropriate empirical methodologies. In this paper we propose a new approach for tuning and evaluating lifelong RL agents where only one percent of the experiment data can be used for hyperparameter tuning. We then conduct an empirical study of DQN and Soft Actor Critic across a variety of continuing and non-stationary domains. We find both methods generally perform poorly when restricted to one-percent tuning, whereas several algorithmic mitigations designed to maintain network plasticity perform surprising well. In addition, we find that properties designed to measure the network's ability to learn continually indeed correlate with performance under one-percent tuning.
Abstract（参考訳）: 持続的または生涯にわたる強化学習は、環境へのアクセスを制限するべきである。もし私たちが、新しい予期せぬ状況に継続的に適応し、長期間実行可能なアルゴリズムを設計したいなら、エージェントの生涯にわたってハイパーパラメータを調整せずにエージェントをデプロイしなければなりません。ディープRL(そして連続RL)の標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境へのフェッターのないアクセスを仮定することである。本稿では, 寿命の長いRL研究の進展が, 不適切な経験的方法論によって支えられているという考えを考察する。本稿では,実験データの1%しかハイパーパラメータチューニングに使用できない長寿命RLエージェントのチューニングと評価のための新しい手法を提案する。次に、DQNとSoft Actor Criticの連続および非定常領域に関する実証的研究を行う。いずれの手法も1パーセントのチューニングに制限された場合,性能が低下するのに対して,ネットワークの可塑性を維持するために設計されたアルゴリズム的緩和は驚くべき性能を発揮する。さらに,ネットワークの学習能力を測定するために設計された特性は,1パーセントのチューニング下での性能と実際に相関していることがわかった。

関連論文リスト

Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文参考訳（メタデータ） (2025-09-01T18:04:10Z)
The Cell Must Go On: Agar.io for Continual Reinforcement Learning [9.034912115190034]
継続的な強化学習(RL)は、評価のために固定されたポリシーに収束するのではなく、継続的に学習することが期待されるエージェントに関するものである。 AgarCLは連続RLのための研究プラットフォームであり、より洗練された行動の進行を可能にする。
論文参考訳（メタデータ） (2025-05-23T20:09:27Z)
Sample Compression for Self Certified Continual Learning [4.354838732412981]
連続学習アルゴリズムは、一連のタスクから学習することを目的としており、トレーニング分布を静止しないものにしている。提案手法はCoP2L(Continual Pick-to-Learn)と呼ばれ,各タスクの最も代表的なサンプルを効率的に保持することができる。
論文参考訳（メタデータ） (2025-03-13T16:05:56Z)
Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory [37.02104729448692]
EPICは生涯強化学習のための新しいアルゴリズムである。テキストワールドポリシーと呼ばれる共有ポリシの配布を学習し、新しいタスクへの迅速な適応を可能にする。様々な環境における実験により、EPICは寿命の長いRLにおいて既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-11-01T07:01:28Z)
Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。 CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文参考訳（メタデータ） (2024-07-10T16:04:08Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文参考訳（メタデータ） (2023-05-16T17:49:04Z)
Can Agents Run Relay Race with Strangers? Generalization of RL to Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-26T10:12:12Z)
Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文参考訳（メタデータ） (2023-04-12T06:27:10Z)
Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。 LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。 LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文参考訳（メタデータ） (2023-02-26T10:39:38Z)
A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文参考訳（メタデータ） (2023-02-06T14:03:33Z)
ReLOAD: Reinforcement Learning with Optimistic Ascent-Descent for Last-Iterate Convergence in Constrained MDPs [31.663072540757643]
強化学習(Reinforcement Learning, RL)は, 実世界の課題に応用され, 成功を収めている。 Reinforcement Learning with Optimistic Ascent-Descent (ReLOAD)を紹介する。
論文参考訳（メタデータ） (2023-02-02T18:05:27Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
A Tutorial on Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical Report [117.23323653198297]
ユーザが経験した情報の鮮度と、センサが消費するエネルギーのバランスをとっています。対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
論文参考訳（メタデータ） (2021-04-13T12:29:55Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文参考訳（メタデータ） (2020-07-16T09:25:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。