論文の概要: Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in
IBMDPs
- arxiv url: http://arxiv.org/abs/2309.13365v3
- Date: Sun, 21 Jan 2024 13:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:37:25.622237
- Title: Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in
IBMDPs
- Title(参考訳): IBMDPにおける決定木ポリシー学習のためのアクタクリティカルアルゴリズムの限界
- Authors: Hector Kohler, Riad Akrour, Philippe Preux
- Abstract要約: AIモデルの解釈可能性により、ユーザーの安全チェックがそのようなAIの信頼を構築することができる。
決定木(DT)は、学習したモデルをグローバルに見て、どの入力の特徴が決定に重要なのかを透過的に明らかにします。
近年の強化学習フレームワークは,深いRLを用いてDTの空間を探索するために提案されている。
- 参考スコア(独自算出の注目度): 9.587070290189507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability of AI models allows for user safety checks to build trust in
such AIs. In particular, Decision Trees (DTs) provide a global look at the
learned model and transparently reveal which features of the input are critical
for making a decision. However, interpretability is hindered if the DT is too
large. To learn compact trees, a recent Reinforcement Learning (RL) framework
has been proposed to explore the space of DTs using deep RL. This framework
augments a decision problem (e.g. a supervised classification task) with
additional actions that gather information about the features of an otherwise
hidden input. By appropriately penalizing these actions, the agent learns to
optimally trade-off size and performance of DTs. In practice, a reactive policy
for a partially observable Markov decision process (MDP) needs to be learned,
which is still an open problem. We show in this paper that deep RL can fail
even on simple toy tasks of this class. However, when the underlying decision
problem is a supervised classification task, we show that finding the optimal
tree can be cast as a fully observable Markov decision problem and be solved
efficiently, giving rise to a new family of algorithms for learning DTs that go
beyond the classical greedy maximization ones.
- Abstract(参考訳): AIモデルの解釈可能性により、ユーザーの安全チェックがそのようなAIの信頼を構築することができる。
特に、意思決定木(dts)は、学習したモデルをグローバルに観察し、どの入力の特徴が決定に不可欠か透過的に明らかにします。
しかし、DTが大きすぎると解釈が妨げられる。
小型木を学習するために,近年の強化学習(Reinforcement Learning, RL)フレームワークが提案され, 深いRLを用いてDTの空間を探索する。
このフレームワークは、決定問題(例えば教師付き分類タスク)を、隠された入力の特徴に関する情報を収集する追加のアクションで強化する。
これらの行動を適切にペナルティ化することにより、エージェントはdtsのトレードオフサイズと性能を最適に学習する。
実際には、部分的に観測可能なマルコフ決定プロセス(MDP)のための反応性ポリシーを学ぶ必要があるが、これはまだ未解決の問題である。
本稿では,本クラスにおける単純な玩具作業においても,深部RLは失敗する可能性があることを示す。
しかし, 基本決定問題が教師付き分類課題である場合, 最適木を求めることは, 完全に観察可能なマルコフ決定問題としてキャスティングでき, 効率的に解くことができることを示す。
関連論文リスト
- RGMDT: Return-Gap-Minimizing Decision Tree Extraction in Non-Euclidean Metric Space [28.273737052758907]
オラクルの専門家政策と最適決定木政策のリターンギャップの上限について紹介する。
これにより、各エージェントの局所的な観測と行動値空間上で、DT抽出問題を新しい非ユークリッドクラスタリング問題に再キャストすることができる。
また,Return-Gap-Minimization Decision Tree (RGMDT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:19:49Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Interpretable Decision Tree Search as a Markov Decision Process [8.530182510074983]
教師付き学習タスクに最適な決定木を見つけることは、大規模に解決する上で難しい問題である。
近年、マルコフ決定問題 (MDP) としてこの問題の枠組みを定め、深層強化学習を用いてスケーリングに取り組むことが提案されている。
そこで我々は,全ての状態に対して生成する情報理論テスト生成関数を用いて,MDPの分解能を拡大する手法を提案する。
論文 参考訳(メタデータ) (2023-09-22T08:18:08Z) - Verifiable Learning for Robust Tree Ensembles [8.207928136395184]
大規模分散アンサンブルと呼ばれる決定ツリーアンサンブルのクラスは、制限された時間で実行されるセキュリティ検証アルゴリズムを認めている。
我々は、ラベル付きデータから大規模決定木を自動学習する新しいトレーニングアルゴリズムを設計することで、このアイデアの利点を示す。
公開データセットの実験結果から,我々のアルゴリズムを用いてトレーニングした大域的なアンサンブルを数秒で検証できることを確認した。
論文 参考訳(メタデータ) (2023-05-05T15:37:23Z) - Optimal Interpretability-Performance Trade-off of Classification Trees
with Black-Box Reinforcement Learning [0.0]
AIモデルの解釈可能性により、モデルの信頼性を構築するためのユーザ安全チェックが可能になる。
決定木(DT)は、学習したモデルに関するグローバルな見解を提供し、与えられたデータを分類するのに重要な機能の役割を明確に概説する。
コンパクトツリーを学習するために、最近DTの空間を探求する強化学習フレームワークが提案されている。
論文 参考訳(メタデータ) (2023-04-11T09:43:23Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Optimal Decision Diagrams for Classification [68.72078059880018]
数学的プログラミングの観点から最適決定図の学習について検討する。
本稿では,新しい混合整数線形プログラミングモデルを提案する。
このモデルは、公正性、同義性、安定性の概念に対してどのように容易に拡張できるかを示す。
論文 参考訳(メタデータ) (2022-05-28T18:31:23Z) - R(Det)^2: Randomized Decision Routing for Object Detection [64.48369663018376]
本稿では,決定木とディープニューラルネットワークをエンドツーエンドの学習方法で組み合わせたオブジェクト検出手法を提案する。
効率的な学習を容易にするために,ノード選択型および連想型損失を伴うランダム化決定経路を提案する。
このアプローチをオブジェクト検出のためのランダム化決定ルーティングとして、R(Det)$2$と略す。
論文 参考訳(メタデータ) (2022-04-02T07:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。