論文の概要: Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU
Networks
- arxiv url: http://arxiv.org/abs/2308.02729v1
- Date: Fri, 4 Aug 2023 22:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:09:25.424951
- Title: Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU
Networks
- Title(参考訳): Actor-CriticアルゴリズムとReLUネットワークによるプログラムポリシーの合成
- Authors: Spyros Orfanos and Levi H. S. Lelis
- Abstract要約: PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。
本稿では,プログラムポリシーを符号化する言語によって,PIRL固有のアルゴリズムは不要であることを示す。
我々は、ReLUニューラルネットワークと斜め決定木との接続を用いて、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。
- 参考スコア(独自算出の注目度): 20.2777559515384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Programmatically Interpretable Reinforcement Learning (PIRL) encodes policies
in human-readable computer programs. Novel algorithms were recently introduced
with the goal of handling the lack of gradient signal to guide the search in
the space of programmatic policies. Most of such PIRL algorithms first train a
neural policy that is used as an oracle to guide the search in the programmatic
space. In this paper, we show that such PIRL-specific algorithms are not
needed, depending on the language used to encode the programmatic policies.
This is because one can use actor-critic algorithms to directly obtain a
programmatic policy. We use a connection between ReLU neural networks and
oblique decision trees to translate the policy learned with actor-critic
algorithms into programmatic policies. This translation from ReLU networks
allows us to synthesize policies encoded in programs with if-then-else
structures, linear transformations of the input values, and PID operations.
Empirical results on several control problems show that this translation
approach is capable of learning short and effective policies. Moreover, the
translated policies are at least competitive and often far superior to the
policies PIRL algorithms synthesize.
- Abstract(参考訳): PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。
近年,プログラムポリシーの領域における探索を誘導する勾配信号の欠如に対処する目的で,新しいアルゴリズムが導入された。
このようなPIRLアルゴリズムのほとんどは、まず、プログラム空間における探索を導くための託宣として使用される神経ポリシーを訓練する。
本稿では,プログラムポリシーを符号化する言語によって,このようなPIRL固有のアルゴリズムは不要であることを示す。
これは、アクター批判アルゴリズムを使ってプログラムポリシーを直接取得できるためである。
ReLUニューラルネットワークと斜め決定木との接続を利用して、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。
reluネットワークからのこの変換により、if-then-else構造、入力値の線形変換、pid操作でプログラムに符号化されたポリシーを合成できる。
いくつかの制御問題に対する実証的な結果は、この翻訳手法が短く効果的なポリシーを学習できることを示している。
さらに、翻訳されたポリシーは少なくとも競争力があり、しばしばPIRLアルゴリズムが合成するポリシーよりも優れている。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Programmatic Policy Extraction by Iterative Local Search [0.15229257192293197]
本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
論文 参考訳(メタデータ) (2022-01-18T10:39:40Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Cautious Policy Programming: Exploiting KL Regularization in Monotonic
Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。
提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:03:10Z) - On-Line Policy Iteration for Infinite Horizon Dynamic Programming [0.0]
有限状態無限地平線割引動的プログラミングのためのオンラインポリシー反復(PI)アルゴリズムを提案する。
このアルゴリズムは有限個の段階に収束し、局所最適ポリシーの一種となる。
また、価値とポリシーを近似したオンラインPIアルゴリズムにも適している。
論文 参考訳(メタデータ) (2021-06-01T19:50:22Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。