論文の概要: Position: Lifetime tuning is incompatible with continual reinforcement learning
- arxiv url: http://arxiv.org/abs/2404.02113v4
- Date: Fri, 08 Aug 2025 16:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.845893
- Title: Position: Lifetime tuning is incompatible with continual reinforcement learning
- Title(参考訳): 位置: ライフタイムチューニングは連続的強化学習と相容れない
- Authors: Golnaz Mesbahi, Parham Mohammad Panahi, Olya Mastikhina, Steven Tang, Martha White, Adam White,
- Abstract要約: 連続RLでは、学習を終わらないエージェントが望まれます。
RLの標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境への未使用のアクセスを仮定することである。
- 参考スコア(独自算出の注目度): 16.942194002849263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In continual RL we want agents capable of never-ending learning, and yet our evaluation methodologies do not reflect this. The standard practice in RL is to assume unfettered access to the deployment environment for the full lifetime of the agent. For example, agent designers select the best performing hyperparameters in Atari by testing each for 200 million frames and then reporting results on 200 million frames. In this position paper, we argue and demonstrate the pitfalls of this inappropriate empirical methodology: lifetime tuning. We provide empirical evidence to support our position by testing DQN and SAC across several of continuing and non-stationary environments with two main findings: (1) lifetime tuning does not allow us to identify algorithms that work well for continual learning -- all algorithms equally succeed; (2) recently developed continual RL algorithms outperform standard non-continual algorithms when tuning is limited to a fraction of the agent's lifetime. The goal of this paper is to provide an explanation for why recent progress in continual RL has been mixed and motivate the development of empirical practices that better match the goals of continual RL.
- Abstract(参考訳): 連続RLでは、学習が終わらないエージェントを欲しがっているが、評価手法はそれを反映していない。
RLの標準的なプラクティスは、エージェントの全生涯にわたって、デプロイ環境への未使用のアクセスを仮定することである。
例えばエージェントデザイナは,2億フレームでそれぞれテストし,2億フレームで結果を報告することで,Atariで最高のハイパーパラメータを実行するように選択する。
本稿では、この不適切な経験的方法論の落とし穴、すなわち寿命のチューニングについて論じ、実証する。
1) 継続学習に適したアルゴリズムを識別できない(全てのアルゴリズムが等しく成功する) ; 2) 最近開発された連続RLアルゴリズムは、チューニングがエージェントの寿命のごく一部に制限されている場合に、標準の非連続アルゴリズムよりも優れる。
本研究の目的は, 連続RLの最近の進歩が混在している理由を説明することであり, 連続RLの目標に適合する経験的実践の開発を動機づけることである。
関連論文リスト
- The Cell Must Go On: Agar.io for Continual Reinforcement Learning [9.034912115190034]
継続的な強化学習(RL)は、評価のために固定されたポリシーに収束するのではなく、継続的に学習することが期待されるエージェントに関するものである。
AgarCLは連続RLのための研究プラットフォームであり、より洗練された行動の進行を可能にする。
論文 参考訳(メタデータ) (2025-05-23T20:09:27Z) - Statistical Guarantees for Lifelong Reinforcement Learning using PAC-Bayesian Theory [37.02104729448692]
EPICは生涯強化学習のための新しいアルゴリズムである。
テキストワールドポリシーと呼ばれる共有ポリシの配布を学習し、新しいタスクへの迅速な適応を可能にする。
様々な環境における実験により、EPICは寿命の長いRLにおいて既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-01T07:01:28Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Multi-agent Policy Reciprocity with Theoretical Guarantee [24.65151626601257]
提案手法は,不一致状態においてもエージェント間政策を完全に活用できる,新しいマルチエージェントポリシー相互性(PR)フレームワークを提案する。
離散的かつ連続的な環境における実験結果から,PRは既存のRL法や転写RL法よりも優れることが示された。
論文 参考訳(メタデータ) (2023-04-12T06:27:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Optimizing the Long-Term Average Reward for Continuing MDPs: A Technical
Report [117.23323653198297]
ユーザが経験した情報の鮮度と、センサが消費するエネルギーのバランスをとっています。
対応するステータス更新手順を継続的なマルコフ決定プロセス(MDP)としてキャストします。
次元の呪いを回避するため,我々は深層強化学習(DRL)アルゴリズムを設計するための方法論を確立した。
論文 参考訳(メタデータ) (2021-04-13T12:29:55Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。