論文の概要: Generalization, Mayhems and Limits in Recurrent Proximal Policy
Optimization
- arxiv url: http://arxiv.org/abs/2205.11104v1
- Date: Mon, 23 May 2022 07:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 11:33:52.124279
- Title: Generalization, Mayhems and Limits in Recurrent Proximal Policy
Optimization
- Title(参考訳): 再帰的近位政策最適化の一般化と限界
- Authors: Marco Pleines, Matthias Pallasch, Frank Zimmer, Mike Preuss
- Abstract要約: 正しく効率的な実装を実現するために、繰り返しを追加する際には、正しくなければならない重要な詳細を強調します。
モータル・メイヘムとシーリング・スポットライトのベンチマークによる再帰的PPOの限界について検討した。
注目すべきは、訓練種子の数を拡大する際のモルタル・マヘムの強い一般化への移行を示すことができることである。
- 参考スコア(独自算出の注目度): 1.8570591025615453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At first sight it may seem straightforward to use recurrent layers in Deep
Reinforcement Learning algorithms to enable agents to make use of memory in the
setting of partially observable environments. Starting from widely used
Proximal Policy Optimization (PPO), we highlight vital details that one must
get right when adding recurrence to achieve a correct and efficient
implementation, namely: properly shaping the neural net's forward pass,
arranging the training data, correspondingly selecting hidden states for
sequence beginnings and masking paddings for loss computation. We further
explore the limitations of recurrent PPO by benchmarking the contributed novel
environments Mortar Mayhem and Searing Spotlights that challenge the agent's
memory beyond solely capacity and distraction tasks. Remarkably, we can
demonstrate a transition to strong generalization in Mortar Mayhem when scaling
the number of training seeds, while the agent does not succeed on Searing
Spotlights, which seems to be a tough challenge for memory-based agents.
- Abstract(参考訳): 一見すると、エージェントが部分的に観察可能な環境の設定でメモリを利用することができるように、深層強化学習アルゴリズムでリカレントなレイヤを使用するのは簡単であるように思える。
ppo(proximal policy optimization)から始め、ニューラルネットワークのフォワードパスを適切に整形し、トレーニングデータをアレンジし、シーケンス開始のための隠れた状態を選択し、損失計算のためにマスキングパディングを行う。
我々は, エージェントの記憶に挑戦する新たな環境であるモルタル・メイヘムとシーリング・スポットライトのベンチマークにより, 反復的ppoの限界をさらに探究する。
注目すべきは、トレーニング種子の数をスケールする際、Mortar Mayhemの強い一般化への移行を示すことができる一方で、エージェントはシーリングスポットライトで成功しないことだ。
関連論文リスト
- PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。
既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。
そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:40:54Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Delay-Adapted Policy Optimization and Improved Regret for Adversarial
MDP with Delayed Bandit Feedback [10.957528713294874]
政策最適化は強化学習(RL)において最も一般的な手法の1つである
表型MDPにおけるPOに対する最寄りの後悔境界を初めて与え、最先端(効率の低い手法)を超越するかもしれない。
遅延適応PO(DAPO)は実装や一般化が容易であり、線形$Q$-関数の仮定の下で無限の状態空間に拡張することができ、関数近似による遅延フィードバックに対する最初の後悔境界を証明できる。
論文 参考訳(メタデータ) (2023-05-13T12:40:28Z) - Understanding and Preventing Capacity Loss in Reinforcement Learning [28.52122927103544]
我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。
キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
論文 参考訳(メタデータ) (2022-04-20T15:55:15Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Posterior Meta-Replay for Continual Learning [4.319932092720977]
連続学習(CL)アルゴリズムは最近、i.i.dでトレーニングする必要性を克服しようとするため、多くの注目を集めている。
未知のターゲットデータ分布からのサンプル。
ベイズ的視点を取り入れ,タスク固有の後方分布を継続的に学習することによって,cl問題に取り組むための原理的な方法を検討した。
論文 参考訳(メタデータ) (2021-03-01T17:08:35Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。