論文の概要: Synthesising Reinforcement Learning Policies through Set-Valued
Inductive Rule Learning
- arxiv url: http://arxiv.org/abs/2106.06009v1
- Date: Thu, 10 Jun 2021 19:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 08:15:35.770286
- Title: Synthesising Reinforcement Learning Policies through Set-Valued
Inductive Rule Learning
- Title(参考訳): 集合値帰納規則学習による強化学習ポリシーの合成
- Authors: Youri Coppens, Denis Steckelmacher, Catholijn M. Jonker, Ann Now\'e
- Abstract要約: 強化学習アルゴリズムは、人に対する解釈と信頼が難しいブラックボックスポリシーを生成する。
我々は,CN2ルールマイニングアルゴリズムに基づく政策蒸留アルゴリズムを導入し,政策をルールベース決定システムに蒸留する。
最新の強化学習アルゴリズムを必要とする複雑なタスクであるMario AIベンチマークで、我々のアルゴリズムの適用性を実証する。
- 参考スコア(独自算出の注目度): 5.889881421315419
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Today's advanced Reinforcement Learning algorithms produce black-box
policies, that are often difficult to interpret and trust for a person. We
introduce a policy distilling algorithm, building on the CN2 rule mining
algorithm, that distills the policy into a rule-based decision system. At the
core of our approach is the fact that an RL process does not just learn a
policy, a mapping from states to actions, but also produces extra
meta-information, such as action values indicating the quality of alternative
actions. This meta-information can indicate whether more than one action is
near-optimal for a certain state. We extend CN2 to make it able to leverage
knowledge about equally-good actions to distill the policy into fewer rules,
increasing its interpretability by a person. Then, to ensure that the rules
explain a valid, non-degenerate policy, we introduce a refinement algorithm
that fine-tunes the rules to obtain good performance when executed in the
environment. We demonstrate the applicability of our algorithm on the Mario AI
benchmark, a complex task that requires modern reinforcement learning
algorithms including neural networks. The explanations we produce capture the
learned policy in only a few rules, that allow a person to understand what the
black-box agent learned. Source code:
https://gitlab.ai.vub.ac.be/yocoppen/svcn2
- Abstract(参考訳): 今日の高度な強化学習アルゴリズムは、人に対する解釈と信頼が難しいブラックボックスポリシーを生成する。
本稿では, cn2ルールマイニングアルゴリズムに基づいて, ポリシーをルールベース決定システムに蒸留する政策蒸留アルゴリズムを提案する。
我々のアプローチの核心は、RLプロセスが単に政策や状態から行動へのマッピングを学ぶだけでなく、代替行動の質を示すアクション値のような追加のメタ情報を生成するという事実です。
このメタ情報は、ある状態に対して複数のアクションがほぼ最適であるかどうかを示すことができる。
私たちはcn2を拡張して、政策をより少ないルールに絞り込む等質な行動に関する知識を活用できるようにします。
次に,ルールが有効な非退化ポリシーを説明することを保証するために,ルールを微調整し,環境内で実行した場合の良好な性能を得るための改良アルゴリズムを提案する。
ニューラルネットワークを含む現代的な強化学習アルゴリズムを必要とする複雑なタスクであるmario aiベンチマークで,本アルゴリズムの適用性を示す。
私たちが生成した説明は、ブラックボックスエージェントが学んだことを理解できるように、学習したポリシーをほんの数ルールでキャプチャする。
ソースコード: https://gitlab.ai.vub.ac.be/yocoppen/svcn2
関連論文リスト
- Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Goal-Conditioned Generators of Deep Policies [14.946533606788758]
目的条件付きニューラルネット(NN)について検討し、コンテキスト固有の重み行列の形で深部NNポリシーを学習する。
NNジェネレータは、パラメータ空間の強力な探索とコマンド間の一般化を組み合わせて、より優れたポリシーを反復的に見つける。
実験は、単一の学習されたポリシージェネレータが、トレーニング中に見られるリターンを達成するポリシーを生成する方法を示している。
論文 参考訳(メタデータ) (2022-07-04T16:41:48Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Breaking the Deadly Triad with a Target Network [80.82586530205776]
致命的な三脚とは、政治以外の学習、関数近似、ブートストラップを同時に使用するときの強化学習アルゴリズムの不安定性を指す。
我々は,二段階最適化を使わずに,非制限的かつ変化的な動作ポリシーの下で,最初の収束線形$Q$-learningアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-01-21T21:50:10Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Parameter-Based Value Functions [7.519872646378835]
オフポリティックアクター批判強化学習(RL)アルゴリズムは、1つのターゲットポリシーの価値関数を学習する。
私たちは値関数と呼ばれるクラスを紹介します。
the-based value function (PBVF) は、入力がポリシーパラメータを含む関数である。
学習したPBVFが、トレーニング中に見られるあらゆるポリシーを上回るような、新しいポリシーをゼロショットで学習できることを示します。
論文 参考訳(メタデータ) (2020-06-16T15:04:49Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。