Fugu-MT 論文翻訳(概要): Solving Deep Reinforcement Learning Benchmarks with Linear Policy Networks

論文の概要: Solving Deep Reinforcement Learning Benchmarks with Linear Policy Networks

arxiv url: http://arxiv.org/abs/2402.06912v1
Date: Sat, 10 Feb 2024 09:15:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 18:43:57.661370
Title: Solving Deep Reinforcement Learning Benchmarks with Linear Policy Networks
Title（参考訳）: リニアポリシネットワークを用いた深層強化学習ベンチマークの解法
Authors: Annie Wong, Jacob de Nobel, Thomas B\"ack, Aske Plaat, Anna V. Kononova
Abstract要約: 本研究では、勾配に基づく深層強化学習法と比較して、進化戦略(ES)がどのように機能するかを検討する。我々は、観測から行動までの1つの線形層からなる正規ネットワークとポリシーネットワークの両方をベンチマークする。 ESは、多くのRLベンチマークタスクに対して効果的な線形ポリシーを見つけることができる。
参考スコア（独自算出の注目度）: 0.7499722271664147
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although Deep Reinforcement Learning (DRL) methods can learn effective policies for challenging problems such as Atari games and robotics tasks, algorithms are complex and training times are often long. This study investigates how evolution strategies (ES) perform compared to gradient-based deep reinforcement learning methods. We use ES to optimize the weights of a neural network via neuroevolution, performing direct policy search. We benchmark both regular networks and policy networks consisting of a single linear layer from observations to actions; for three classical ES methods and for three gradient-based methods such as PPO. Our results reveal that ES can find effective linear policies for many RL benchmark tasks, in contrast to DRL methods that can only find successful policies using much larger networks, suggesting that current benchmarks are easier to solve than previously assumed. Interestingly, also for higher complexity tasks, ES achieves results comparable to gradient-based DRL algorithms. Furthermore, we find that by directly accessing the memory state of the game, ES are able to find successful policies in Atari, outperforming DQN. While gradient-based methods have dominated the field in recent years, ES offers an alternative that is easy to implement, parallelize, understand, and tune.
Abstract（参考訳）: 深層強化学習(DRL)手法は,アタリゲームやロボティクスタスクなどの課題に対する効果的なポリシを学習することができるが,アルゴリズムは複雑であり,トレーニング時間は長いことが多い。本研究では,勾配に基づく深層強化学習法と比較して,進化戦略(es)がどのように機能するかを検討する。我々はESを用いて神経進化を通じてニューラルネットワークの重みを最適化し、直接ポリシー探索を行う。我々は、観測から行動までの1つの線形層からなる正規ネットワークとポリシーネットワークの両方をベンチマークし、古典ES法とPPOのような勾配に基づく3つの手法についてベンチマークを行った。その結果,多くのRLベンチマークタスクに対して,ESが有効な線形ポリシーを見出すことができることが明らかとなった。興味深いことに、より複雑なタスクのために、ESは勾配ベースのDRLアルゴリズムに匹敵する結果を得る。さらに、ゲームのメモリ状態に直接アクセスすることで、esはatariで成功したポリシーを見つけることができ、dqnよりも優れています。近年、勾配に基づく手法がこの分野を支配しているが、ESは実装、並列化、理解、チューニングが容易な代替手段を提供している。

関連論文リスト

Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。政策最適化のためのグラフィカル強化学習フレームワークを提案する。理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文参考訳（メタデータ） (2026-01-19T02:18:45Z)
Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文参考訳（メタデータ） (2025-09-29T19:32:11Z)
Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning [2.5352713493505785]
報酬信号の最大化によって、人工エージェントに環境との対話を教えるアルゴリズムである強化学習は、近年大きな成功を収めている。有望な研究の方向性の1つは、一般に階層的またはカリキュラム強化学習を通じて、マルチモーダルポリシーを許容するための目標の導入である。本稿では,継続的制御およびナビゲーションタスクにおける強化学習エージェントの目標を提案するための,確率論的カリキュラム学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-02T08:15:16Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文参考訳（メタデータ） (2023-07-07T15:03:42Z)
Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文参考訳（メタデータ） (2023-06-20T13:41:57Z)
Iteratively Refined Behavior Regularization for Offline Reinforcement Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。 D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-06-09T07:46:24Z)
Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。 NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文参考訳（メタデータ） (2023-04-21T17:53:05Z)
Discovering Evolution Strategies via Meta-Black-Box Optimization [23.956974467496345]
メタラーニングによる進化戦略の効果的な更新ルールの発見を提案する。本手法では,自己注意型アーキテクチャによってパラメータ化された探索戦略を用いる。進化戦略をスクラッチから自己参照的に訓練することは可能であり、学習された更新ルールは外部メタラーニングループを駆動するために使用される。
論文参考訳（メタデータ） (2022-11-21T08:48:46Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Behavior-based Neuroevolutionary Training in Reinforcement Learning [3.686320043830301]
本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
論文参考訳（メタデータ） (2021-05-17T15:40:42Z)
Policy Augmentation: An Exploration Strategy for Faster Convergence of Deep Reinforcement Learning Algorithms [0.0]
本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。ポリシー強化は、新しく開発された帰納的行列補完法に基づいている。提案アルゴリズムは、探索されていない状態-作用ペアの値を増大させ、エージェントが初期エピソードにいる間、エージェントが高値のリターンをもたらすアクションを行うのを助ける。
論文参考訳（メタデータ） (2021-02-10T03:51:45Z)
Learning Adaptive Exploration Strategies in Dynamic Environments Through Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-06T16:14:48Z)
Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文参考訳（メタデータ） (2020-01-09T10:13:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。