論文の概要: Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16642v3
- Date: Wed, 30 Oct 2024 13:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:36.436883
- Title: Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning
- Title(参考訳): Fast TRAC: 生涯強化学習のためのパラメータフリー最適化
- Authors: Aneesh Muppidi, Zhiyu Zhang, Heng Yang,
- Abstract要約: 生涯の強化学習における主要な課題は、可塑性の喪失である。
TRACと呼ばれる長寿命RLのパラメータフリーチューニングを提案する。
Procgen、Atari、Gym Controlの環境での実験では、TRACは驚くほどうまく機能している。
- 参考スコア(独自算出の注目度): 6.388725318524439
- License:
- Abstract: A key challenge in lifelong reinforcement learning (RL) is the loss of plasticity, where previous learning progress hinders an agent's adaptation to new tasks. While regularization and resetting can help, they require precise hyperparameter selection at the outset and environment-dependent adjustments. Building on the principled theory of online convex optimization, we present a parameter-free optimizer for lifelong RL, called TRAC, which requires no tuning or prior knowledge about the distribution shifts. Extensive experiments on Procgen, Atari, and Gym Control environments show that TRAC works surprisingly well-mitigating loss of plasticity and rapidly adapting to challenging distribution shifts-despite the underlying optimization problem being nonconvex and nonstationary.
- Abstract(参考訳): 生涯強化学習(RL)における重要な課題は、前回の学習がエージェントの新たなタスクへの適応を妨げる、可塑性の喪失である。
正規化とリセットは有効であるが、初期および環境に依存した調整において正確なハイパーパラメータ選択が必要となる。
オンライン凸最適化の原理的理論に基づいて, TRACと呼ばれる長寿命RLのパラメータフリー最適化手法を提案する。
Procgen、Atari、Gym Controlの環境に対する大規模な実験により、TRACは驚くほど可塑性の損失を軽減し、非凸かつ非定常な最適化問題にもかかわらず、挑戦的な分布シフトに迅速に適応することを示した。
関連論文リスト
- Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Mitigating the Stability-Plasticity Dilemma in Adaptive Train Scheduling with Curriculum-Driven Continual DQN Expansion [3.2635082758250693]
継続学習エージェントは、より複雑な振る舞いを開発するために、以前の経験に基づいて構築される。
しかし、これらのシステムをスケールすることは、特に以前のポリシーの保存と現在の環境への新しいポリシーの適応のバランスをとる上で大きな課題となる。
このバランスは安定性・塑性ジレンマと呼ばれ、特に列車スケジューリング問題のような複雑なマルチエージェント領域で顕著である。
論文 参考訳(メタデータ) (2024-08-19T09:33:31Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Prompt-Tuning Decision Transformer with Preference Ranking [83.76329715043205]
本稿では,環境情報取得におけるRLエージェントの誘導手法としてトラジェクトリセグメントを用いたPrompt-Tuning DTアルゴリズムを提案する。
提案手法では,ガウス分布をランダムにサンプリングしてプロンプト軌道の要素を微調整し,選好ランク関数を用いて最適化方向を求める。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。
論文 参考訳(メタデータ) (2023-05-16T17:49:04Z) - Self-Supervised Primal-Dual Learning for Constrained Optimization [19.965556179096385]
本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
プリマル・デュアル・ラーニング(PDL, Primal-Dual Learning)は,事前解決した一連のインスタンスや,学習と推論のための最適化解法を必要としない自己指導型トレーニング手法である。
論文 参考訳(メタデータ) (2022-08-18T20:07:10Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization [1.7970523486905976]
本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-27T08:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。