論文の概要: Interpretable Control by Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.09964v1
- Date: Mon, 20 Jul 2020 09:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:30:18.279032
- Title: Interpretable Control by Reinforcement Learning
- Title(参考訳): 強化学習による解釈制御
- Authors: Daniel Hein, Steffen Limmer, Thomas A. Runkler
- Abstract要約: 3つの強化学習法を用いて、人間解釈可能なポリシーを生成する。
実験により、新しいRL法は、優れたポリシーを自動生成できることが示されている。
この方法の1つは、ハードウェアカートポール実証機の方程式に基づくポリシーを自動学習するために応用される。
- 参考スコア(独自算出の注目度): 4.681657856131281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, three recently introduced reinforcement learning (RL) methods
are used to generate human-interpretable policies for the cart-pole balancing
benchmark. The novel RL methods learn human-interpretable policies in the form
of compact fuzzy controllers and simple algebraic equations. The
representations as well as the achieved control performances are compared with
two classical controller design methods and three non-interpretable RL methods.
All eight methods utilize the same previously generated data batch and produce
their controller offline - without interaction with the real benchmark
dynamics. The experiments show that the novel RL methods are able to
automatically generate well-performing policies which are at the same time
human-interpretable. Furthermore, one of the methods is applied to
automatically learn an equation-based policy for a hardware cart-pole
demonstrator by using only human-player-generated batch data. The solution
generated in the first attempt already represents a successful balancing
policy, which demonstrates the methods applicability to real-world problems.
- Abstract(参考訳): 本稿では,最近導入された3つの強化学習(rl)手法を用いて,カートポールバランスベンチマークのためのヒューマンコンタプリタブルなポリシを生成する。
新しいRL法は、コンパクトファジィコントローラと単純な代数方程式の形式で人間解釈可能なポリシーを学習する。
この表現と制御性能は、2つの古典的コントローラ設計法と3つの非解釈可能なRL法と比較される。
8つのメソッドはすべて、以前生成された同じデータバッチを使用して、実際のベンチマークダイナミックスと対話することなく、コントローラをオフラインにします。
実験の結果,新規なRL法は人為的解釈と同時に高い性能のポリシーを自動生成できることが判明した。
さらに,本手法の1つは,人プレイヤ生成バッチデータのみを用いて,ハードウェアカートポールデモレータの方程式ベースのポリシを自動学習する手法である。
最初の試みで生成されたソリューションは、実世界の問題に適用可能な方法を示すバランシングポリシとしてすでに成功しています。
関連論文リスト
- Human-Readable Programs as Actors of Reinforcement Learning Agents Using Critic-Moderated Evolution [4.831084635928491]
我々はTD3上に構築し、その批判をプログラムを合成する遺伝的アルゴリズムの客観的機能の基礎として利用する。
私たちのアプローチでは、単純なMean Squared Errorではなく、プログラムを実際の高い報酬に導いています。
論文 参考訳(メタデータ) (2024-10-29T10:57:33Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning [2.2725929250900947]
静的な$D$-scalingでステートフィードバックの$mu$合成を解くために、よく知られた$DK$-iterationのモデルフリーバージョンを開発する。
提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして、古典的な中央経路アルゴリズムを模倣する。
本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。
論文 参考訳(メタデータ) (2021-11-30T16:29:49Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。