論文の概要: Evolutionary learning of interpretable decision trees
- arxiv url: http://arxiv.org/abs/2012.07723v3
- Date: Wed, 21 Apr 2021 10:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:24:23.511576
- Title: Evolutionary learning of interpretable decision trees
- Title(参考訳): 解釈可能な決定木の進化的学習
- Authors: Leonardo Lucio Custode, Giovanni Iacca
- Abstract要約: 本研究では,意思決定木を用いた強化学習手法を提案する。
進化的アルゴリズムの利点とQ学習の利点を組み合わせた2段階最適化手法を提案する。
提案手法を3つのよく知られた強化学習ベンチマークで検証し,性能と解釈可能性の両面で最先端と競争する結果を得た。
- 参考スコア(独自算出の注目度): 3.655021726150368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning techniques achieved human-level performance in several
tasks in the last decade. However, in recent years, the need for
interpretability emerged: we want to be able to understand how a system works
and the reasons behind its decisions. Not only we need interpretability to
assess the safety of the produced systems, we also need it to extract knowledge
about unknown problems. While some techniques that optimize decision trees for
reinforcement learning do exist, they usually employ greedy algorithms or they
do not exploit the rewards given by the environment. This means that these
techniques may easily get stuck in local optima. In this work, we propose a
novel approach to interpretable reinforcement learning that uses decision
trees. We present a two-level optimization scheme that combines the advantages
of evolutionary algorithms with the advantages of Q-learning. This way we
decompose the problem into two sub-problems: the problem of finding a
meaningful and useful decomposition of the state space, and the problem of
associating an action to each state. We test the proposed method on three
well-known reinforcement learning benchmarks, on which it results competitive
with respect to the state-of-the-art in both performance and interpretability.
Finally, we perform an ablation study that confirms that using the two-level
optimization scheme gives a boost in performance in non-trivial environments
with respect to a one-layer optimization technique.
- Abstract(参考訳): 強化学習技術は過去10年間でいくつかのタスクで人間レベルのパフォーマンスを達成した。
しかし、近年では、システムがどのように機能するか、その決定の背景にある理由を理解できるようにしたいと思っています。
生成したシステムの安全性を評価するために解釈可能性が必要であるだけでなく、未知の問題に関する知識を抽出する必要がある。
強化学習のために決定木を最適化する技法は存在するが、通常は欲深いアルゴリズムを用いるか、環境が与える報酬を活用しない。
これは、これらのテクニックが局所的なオプティマで簡単に立ち往生することを意味する。
本研究では,決定木を用いた強化学習のための新しい手法を提案する。
進化的アルゴリズムの利点とQ学習の利点を組み合わせた2段階最適化手法を提案する。
このようにして問題を2つのサブプロブレムに分解する:状態空間の有意義で有用な分解を見つける問題と、各状態に作用を関連付ける問題である。
提案手法を3つのよく知られた強化学習ベンチマークで検証し,性能と解釈可能性の両面で最先端と競争する結果を得た。
最後に, この2段階最適化手法を用いることで, 単層最適化手法に対して非自明な環境での性能向上が期待できることを示すアブレーション研究を行う。
関連論文リスト
- Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Beyond backpropagation: implicit gradients for bilevel optimization [0.0]
双レベル最適化は、最小限の量で暗黙的に定義されるシステムの学習をフレーム化する方法である。
ここでは、そのような問題を解決する勾配に基づくアプローチに焦点を当てる。
本稿では,これらの手法の背景にある数学的基礎について述べるとともに,勾配推定アルゴリズムを詳細に導入し,異なるアプローチの競争上の優位性を比較する。
論文 参考訳(メタデータ) (2022-05-06T08:53:46Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - Online Baum-Welch algorithm for Hierarchical Imitation Learning [7.271970309320002]
オプションフレームワークで階層的な模倣学習を行うためのオンラインアルゴリズムを提案する。
このアプローチは離散環境と連続環境の両方でうまく機能することを示す。
論文 参考訳(メタデータ) (2021-03-22T22:03:25Z) - Reinforcement Learning for Variable Selection in a Branch and Bound
Algorithm [0.10499611180329801]
現実世界のインスタンスのパターンを活用して、与えられた問題に最適化された新しいブランチ戦略をスクラッチから学習します。
本稿では,この課題に特化して設計された新しい強化学習手法であるFMSTSを提案する。
論文 参考訳(メタデータ) (2020-05-20T13:15:48Z) - Learning 2-opt Heuristics for the Traveling Salesman Problem via Deep
Reinforcement Learning [2.4565068569913384]
本研究では,2オプト演算子に基づく局所的な探索勾配を深層強化学習により学習することを提案する。
学習したポリシは、ランダムな初期解よりも改善でき、従来の最先端のディープラーニング手法よりも高速に、ほぼ最適解にアプローチできることを示す。
論文 参考訳(メタデータ) (2020-04-03T14:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。