論文の概要: Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate
- arxiv url: http://arxiv.org/abs/2405.15384v1
- Date: Fri, 24 May 2024 09:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 15:01:48.492320
- Title: Efficient Recurrent Off-Policy RL Requires a Context-Encoder-Specific Learning Rate
- Title(参考訳): コンテクストエンコーダ特化学習速度を必要とする高効率リカレントオフポリティRL
- Authors: Fan-Ming Luo, Zuolin Tu, Zefang Huang, Yang Yu,
- Abstract要約: リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)に基づくコンテキストエンコーダである。
従来のRL法は、RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフ政治RLを提案する。
- 参考スコア(独自算出の注目度): 4.6659670917171825
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-world decision-making tasks are usually partially observable Markov decision processes (POMDPs), where the state is not fully observable. Recent progress has demonstrated that recurrent reinforcement learning (RL), which consists of a context encoder based on recurrent neural networks (RNNs) for unobservable state prediction and a multilayer perceptron (MLP) policy for decision making, can mitigate partial observability and serve as a robust baseline for POMDP tasks. However, previous recurrent RL methods face training stability issues due to the gradient instability of RNNs. In this paper, we propose Recurrent Off-policy RL with Context-Encoder-Specific Learning Rate (RESeL) to tackle this issue. Specifically, RESeL uses a lower learning rate for context encoder than other MLP layers to ensure the stability of the former while maintaining the training efficiency of the latter. We integrate this technique into existing off-policy RL methods, resulting in the RESeL algorithm. We evaluated RESeL in 18 POMDP tasks, including classic, meta-RL, and credit assignment scenarios, as well as five MDP locomotion tasks. The experiments demonstrate significant improvements in training stability with RESeL. Comparative results show that RESeL achieves notable performance improvements over previous recurrent RL baselines in POMDP tasks, and is competitive with or even surpasses state-of-the-art methods in MDP tasks. Further ablation studies highlight the necessity of applying a distinct learning rate for the context encoder.
- Abstract(参考訳): 実世界の意思決定タスクは、通常は部分的に観察可能なマルコフ決定プロセス(POMDP)であり、状態は完全に観察できない。
近年の進歩により、リカレント強化学習(RL)は、観測不能な状態予測のためのリカレントニューラルネットワーク(RNN)と、意思決定のための多層パーセプトロン(MLP)ポリシーに基づくコンテキストエンコーダで構成されており、部分的可観測性を軽減し、POMDPタスクの堅牢なベースラインとして機能することが示されている。
しかし, 従来の繰り返しRL法では, RNNの勾配不安定性に起因する訓練安定性の問題に直面していた。
本稿では,この問題を解決するために,コンテキストエンコーダ特化学習率(RESeL)を用いたリカレントオフポリシーRLを提案する。
具体的には、RESeLは文脈エンコーダの学習率を他のMLP層よりも低くし、後者の訓練効率を維持しつつ、前者の安定性を確保する。
我々は,この手法を既存の法外RL手法に統合し,RESeLアルゴリズムを実現する。
我々は,古典的,メタRL,クレジット代入シナリオを含む18のPOMDPタスクと5つのMDPロコモーションタスクでRESeLを評価した。
実験はRESeLによるトレーニング安定性を著しく改善した。
比較の結果、RESeLは従来の繰り返しRLベースラインよりも顕著な性能向上を実現し、MDPタスクでは最先端の手法と競合するか、さらに超えていることがわかった。
さらにアブレーション研究は、文脈エンコーダに個別の学習率を適用する必要性を強調している。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Value-Aided Conditional Supervised Learning for Offline RL [21.929683225837078]
Value-Aided Conditional Supervised Learning (VCS) は、RCSLの安定性と値ベース手法の縫合能力を相乗化する手法である。
ニューラル・タンジェント・カーネル解析に基づいて、VCSはトラジェクトリ・リターンに応じてRCSLの損失関数に値補助を動的に注入する。
我々の実証研究は、VCSがRCSLとバリューベースの両方の手法を著しく上回っているだけでなく、最も高い軌道のリターンを継続的に達成している、または、しばしば上回っていることを明らかにしている。
論文 参考訳(メタデータ) (2024-02-03T04:17:09Z) - Real-Time Recurrent Reinforcement Learning [7.737685867200335]
RTRRLは,(1)メタRL RNNアーキテクチャを独自に実装したアクター・クリティカルなアルゴリズム,(2)メタRLネットワークをトレーニングするために時間差分学習とダッチ適性トレースを利用する外部強化学習アルゴリズム,(3)ネットワークのパラメータに関する勾配を計算するオンライン自動微分アルゴリズムであるRFLO学習の3つの部分から構成される。
論文 参考訳(メタデータ) (2023-11-08T16:56:16Z) - Policy-Gradient Training of Language Models for Ranking [28.7445517835435]
テキスト検索は、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。
現在の最先端テキスト検索モデルは、事前訓練された大規模言語モデル(LLM)を活用して、競争性能を達成する。
我々は、LLMをPlanet-Luceランキングポリシーとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:55:23Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Deep Q-network using reservoir computing with multi-layered readout [0.0]
リカレントニューラルネットワーク(RNN)に基づく強化学習(RL)は、文脈に依存したタスクの学習に使用される。
BPTTを使わずにエージェントを訓練するリプレイメモリ導入方式が提案されている。
本稿では,読み出し層に多層ニューラルネットワークを適用することにより,本手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T00:32:55Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。