論文の概要: Boosting Long-Delayed Reinforcement Learning with Auxiliary
Short-Delayed Task
- arxiv url: http://arxiv.org/abs/2402.03141v1
- Date: Mon, 5 Feb 2024 16:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:06:11.914411
- Title: Boosting Long-Delayed Reinforcement Learning with Auxiliary
Short-Delayed Task
- Title(参考訳): Auxiliary Short-Delayed Task を用いた長時間遅れ強化学習の強化
- Authors: Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Chung-Wei Lin, Chen Lv,
Qi Zhu, Chao Huang
- Abstract要約: 本稿では,長時間のタスクにおける学習を高速化する新しい補助遅延強化学習(AD-RL)を提案する。
具体的には、AD-RLは、短遅延タスクにおける値関数を学習し、長遅延タスクにおけるブートストラップとポリシー改善技術でそれを利用する。
- 参考スコア(独自算出の注目度): 23.934684259593823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is challenging in delayed scenarios, a common
real-world situation where observations and interactions occur with delays.
State-of-the-art (SOTA) state-augmentation techniques either suffer from the
state-space explosion along with the delayed steps, or performance degeneration
in stochastic environments. To address these challenges, our novel
Auxiliary-Delayed Reinforcement Learning (AD-RL) leverages an auxiliary
short-delayed task to accelerate the learning on a long-delayed task without
compromising the performance in stochastic environments. Specifically, AD-RL
learns the value function in the short-delayed task and then employs it with
the bootstrapping and policy improvement techniques in the long-delayed task.
We theoretically show that this can greatly reduce the sample complexity
compared to directly learning on the original long-delayed task. On
deterministic and stochastic benchmarks, our method remarkably outperforms the
SOTAs in both sample efficiency and policy performance.
- Abstract(参考訳): 強化学習は、遅延を伴う観察と相互作用が発生する一般的な現実の状況である遅延シナリオでは困難である。
state-of-the-art (sota) state-augmentation techniqueは、遅延したステップとともに状態空間の爆発に苦しむか、確率的な環境での性能低下に苦しむ。
これらの課題に対処するため,本研究では,補助的半遅延課題を活用し,長期遅延課題の学習を確率的環境における性能を損なうことなく高速化する。
具体的には、ad-rlは短い遅延タスクで値関数を学習し、長い遅延タスクでブートストラップとポリシー改善技術を採用する。
理論的には、これは元の長期遅延タスクで直接学習するよりも、サンプルの複雑さを大幅に減らすことができる。
決定論的および確率的ベンチマークでは,本手法はサンプル効率と政策性能の両方でSOTAを著しく上回っている。
関連論文リスト
- Towards Robust Continual Learning with Bayesian Adaptive Moment
Regularization [57.71118589124002]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T17:49:12Z) - Delayed Reinforcement Learning by Imitation [31.932677462399468]
遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-11T15:27:33Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。