論文の概要: Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16642v2
- Date: Mon, 8 Jul 2024 17:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:29:45.267456
- Title: Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning
- Title(参考訳): Fast TRAC: 生涯強化学習のためのパラメータフリー最適化
- Authors: Aneesh Muppidi, Zhiyu Zhang, Heng Yang,
- Abstract要約: 生涯の強化学習における主要な課題は、可塑性の喪失である。
TRACと呼ばれる長寿命RLのパラメータフリーチューニングを提案する。
Procgen、Atari、Gym Controlの環境での実験では、TRACは驚くほどうまく機能している。
- 参考スコア(独自算出の注目度): 6.388725318524439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in lifelong reinforcement learning (RL) is the loss of plasticity, where previous learning progress hinders an agent's adaptation to new tasks. While regularization and resetting can help, they require precise hyperparameter selection at the outset and environment-dependent adjustments. Building on the principled theory of online convex optimization, we present a parameter-free optimizer for lifelong RL, called TRAC, which requires no tuning or prior knowledge about the distribution shifts. Extensive experiments on Procgen, Atari, and Gym Control environments show that TRAC works surprisingly well-mitigating loss of plasticity and rapidly adapting to challenging distribution shifts-despite the underlying optimization problem being nonconvex and nonstationary.
- Abstract(参考訳): 生涯強化学習(RL)における重要な課題は、前回の学習がエージェントの新たなタスクへの適応を妨げる、可塑性の喪失である。
正規化とリセットは有効であるが、初期および環境に依存した調整において正確なハイパーパラメータ選択が必要となる。
オンライン凸最適化の原理的理論に基づいて, TRACと呼ばれる長寿命RLのパラメータフリー最適化手法を提案する。
Procgen、Atari、Gym Controlの環境に対する大規模な実験により、TRACは驚くほど可塑性の損失を軽減し、非凸かつ非定常な最適化問題にもかかわらず、挑戦的な分布シフトに迅速に適応することを示した。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
自動強化学習(AutoRL)のための新しいアプローチとして,Adaptive $Q$-Network (AdaQN)を提案する。
AdaQNは、追加のサンプルを必要としない最適化手順の非定常性を考慮に入れている。
AdaQNは理論的に健全であり、MuJoCo制御問題において実験的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - AdaptIR: Parameter Efficient Multi-task Adaptation for Pre-trained Image
Restoration Models [58.10797482129863]
本稿では,事前学習した復元モデルに適応するためのパラメータ効率の良い移動学習手法であるAdaptIRを提案する。
実験により,提案手法は0.6%しか使用せず,完全微調整よりも同等あるいはさらに優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Self-Supervised Primal-Dual Learning for Constrained Optimization [19.965556179096385]
本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
プリマル・デュアル・ラーニング(PDL, Primal-Dual Learning)は,事前解決した一連のインスタンスや,学習と推論のための最適化解法を必要としない自己指導型トレーニング手法である。
論文 参考訳(メタデータ) (2022-08-18T20:07:10Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization [1.7970523486905976]
本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-27T08:24:51Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。