論文の概要: Policy Gradient RL Algorithms as Directed Acyclic Graphs
- arxiv url: http://arxiv.org/abs/2012.07763v2
- Date: Sat, 16 Jan 2021 01:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 20:52:08.761124
- Title: Policy Gradient RL Algorithms as Directed Acyclic Graphs
- Title(参考訳): 有向非巡回グラフとしてのポリシー勾配rlアルゴリズム
- Authors: Juan Jose Garau Luis
- Abstract要約: Anonymous, 2020で導入されたフレームワークは、異なるRLアルゴリズムをDirected Acyclic Graphs(DAG)として表現することでこの問題に対処する。
本研究では,従来の検索言語を拡張し,VPG,PPO,DDPG,TD3,SACの5種類のポリシー勾配アルゴリズムに対してグラフを提案することで,このギャップを埋めようとしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Meta Reinforcement Learning (RL) methods focus on automating the design of RL
algorithms that generalize to a wide range of environments. The framework
introduced in (Anonymous, 2020) addresses the problem by representing different
RL algorithms as Directed Acyclic Graphs (DAGs), and using an evolutionary meta
learner to modify these graphs and find good agent update rules. While the
search language used to generate graphs in the paper serves to represent
numerous already-existing RL algorithms (e.g., DQN, DDQN), it has limitations
when it comes to representing Policy Gradient algorithms. In this work we try
to close this gap by extending the original search language and proposing
graphs for five different Policy Gradient algorithms: VPG, PPO, DDPG, TD3, and
SAC.
- Abstract(参考訳): メタ強化学習(Meta Reinforcement Learning, RL)法は, 幅広い環境に一般化したRLアルゴリズムの設計を自動化することに焦点を当てている。
Anonymous, 2020)で導入されたフレームワークは、異なるRLアルゴリズムをDAG(Directed Acyclic Graphs)として表現し、進化的メタラーナを使用してこれらのグラフを修正し、適切なエージェント更新ルールを見つけることで、この問題に対処する。
論文でグラフを生成するために使われる検索言語は、すでに存在する多くのRLアルゴリズム(例えば、DQN、DDQN)を表すのに役立ち、ポリシーグラディエントアルゴリズムの表現には制限がある。
本研究では,従来の検索言語を拡張し,VPG,PPO,DDPG,TD3,SACの5種類のポリシー勾配アルゴリズムに対してグラフを提案することで,このギャップを埋めようとしている。
関連論文リスト
- Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - The Definitive Guide to Policy Gradients in Deep Reinforcement Learning:
Theory, Algorithms and Implementations [0.0]
近年、深層強化学習において、様々な強力なポリシー勾配アルゴリズムが提案されている。
本稿では,その理論的基礎と実践的実装の両方の理解を容易にするために,オン・ポリシー・グラデーション・アルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2024-01-24T18:56:53Z) - Learning Regularized Graphon Mean-Field Games with Unknown Graphons [155.38727464526923]
グラフィック平均フィールドゲーム(GMFG)のための強化学習アルゴリズムを設計する。
我々は、正規化されたGMFGのナッシュ平衡(NE)を、グラフンが未知のときに学習することを目指している。
これらのアルゴリズムは、サンプルエージェントからグラモンを学習するために設計された最初のものである。
論文 参考訳(メタデータ) (2023-10-26T16:19:24Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies [26.225293232912716]
本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。
タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-21T02:27:56Z) - Reinforcement Learning on Graph: A Survey [0.3867363075280544]
我々は、RLモデルの概要とグラフマイニングについて概観し、これらのアルゴリズムをグラフ強化学習(GRL)に一般化する。
本稿では,GRLメソッドの様々な領域にわたる適用について論じるとともに,GRLメソッドのメソッド記述,オープンソースコード,ベンチマークデータセットについて概説する。
今後解決すべき重要な方向性と課題を提案する。
論文 参考訳(メタデータ) (2022-04-13T01:25:58Z) - Graph Traversal with Tensor Functionals: A Meta-Algorithm for Scalable
Learning [29.06880988563846]
Graph Traversal via Functionals (GTTF)はグラフアルゴリズムを埋め込むための統合メタアルゴリズムフレームワークである。
提案手法は多種多様であり,学習方法は偏りのない方法で行われ,期待通り,特定の実装が直接実行されるかのように学習を近似する。
論文 参考訳(メタデータ) (2021-02-08T16:52:52Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。