論文の概要: Optimizing Interpretable Decision Tree Policies for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.11632v1
- Date: Wed, 21 Aug 2024 14:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:47:35.159212
- Title: Optimizing Interpretable Decision Tree Policies for Reinforcement Learning
- Title(参考訳): 強化学習のための解釈可能な決定木ポリシーの最適化
- Authors: Daniël Vos, Sicco Verwer,
- Abstract要約: 決定木は、その固有の解釈可能性について教師あり学習において注目を集めている。
本稿では、強化学習環境におけるニューラルネットワークを置き換えるために、解釈可能な決定木ポリシーを最適化する問題を考察する。
- 参考スコア(独自算出の注目度): 10.68128849363198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning techniques leveraging deep learning have made tremendous progress in recent years. However, the complexity of neural networks prevents practitioners from understanding their behavior. Decision trees have gained increased attention in supervised learning for their inherent interpretability, enabling modelers to understand the exact prediction process after learning. This paper considers the problem of optimizing interpretable decision tree policies to replace neural networks in reinforcement learning settings. Previous works have relaxed the tree structure, restricted to optimizing only tree leaves, or applied imitation learning techniques to approximately copy the behavior of a neural network policy with a decision tree. We propose the Decision Tree Policy Optimization (DTPO) algorithm that directly optimizes the complete decision tree using policy gradients. Our technique uses established decision tree heuristics for regression to perform policy optimization. We empirically show that DTPO is a competitive algorithm compared to imitation learning algorithms for optimizing decision tree policies in reinforcement learning.
- Abstract(参考訳): 近年,ディープラーニングを活用した強化学習技術は飛躍的な進歩を遂げている。
しかし、ニューラルネットワークの複雑さは、実践者が自分の行動を理解するのを妨げます。
決定木はその固有の解釈可能性について教師あり学習において注目を集めており、モデリング者は学習後の正確な予測過程を理解することができる。
本稿では、強化学習環境におけるニューラルネットワークを置き換えるために、解釈可能な決定木ポリシーを最適化する問題を考察する。
これまでの作業は、木の構造を緩和し、木の葉のみを最適化すること、あるいは、ニューラルネットワークポリシーの振る舞いを決定木で概ね模倣するために模倣学習技術を適用した。
本稿では,政策勾配を用いて決定木を直接最適化する決定木ポリシー最適化(DTPO)アルゴリズムを提案する。
本手法では, 決定木ヒューリスティックスを回帰解析に利用し, 政策最適化を行う。
我々はDTPOが強化学習における決定木ポリシーを最適化する模擬学習アルゴリズムと競合するアルゴリズムであることを実証的に示す。
関連論文リスト
- Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Genetic Adversarial Training of Decision Trees [6.85316573653194]
遺伝的アルゴリズムに基づく決定木のアンサンブルに関する新しい学習手法を提案し、その精度と敵対的な摂動に対する堅牢性を最大化するための決定木を訓練することができる。
本アルゴリズムをMeta-Silvae (MS) というツールに実装し, 対人訓練に用いる参照データセットを用いて実験的に評価した。
論文 参考訳(メタデータ) (2020-12-21T14:05:57Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Generalized and Scalable Optimal Sparse Decision Trees [56.35541305670828]
様々な目的に対して最適な決定木を生成する手法を提案する。
また,連続変数が存在する場合に最適な結果が得られるスケーラブルなアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-06-15T19:00:11Z) - Evolutionary algorithms for constructing an ensemble of decision trees [0.0]
本稿では,進化的アルゴリズムに基づく決定木とそのアンサンブルの誘導法を提案する。
我々のアプローチの主な違いは、決定木の実値ベクトル表現を使うことである。
いくつかの公開UCIデータセットを用いて,本手法の予測性能を検証した。
論文 参考訳(メタデータ) (2020-02-03T13:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。