論文の概要: In Search of Trees: Decision-Tree Policy Synthesis for Black-Box Systems via Search
- arxiv url: http://arxiv.org/abs/2409.03260v1
- Date: Thu, 5 Sep 2024 05:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:40:47.923977
- Title: In Search of Trees: Decision-Tree Policy Synthesis for Black-Box Systems via Search
- Title(参考訳): 木を探索する:探索によるブラックボックスシステムのための決定的トレーポリシー合成
- Authors: Emir Demirović, Christian Schilling, Anna Lukina,
- Abstract要約: ブラックボックス環境と仕様が与えられた最適決定木ポリシーを合成する手法を提案する。
我々のアプローチは、与えられた離散化の下で決定木の空間を体系的に探索する特殊探索アルゴリズムである。
- 参考スコア(独自算出の注目度): 6.74890780471356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision trees, owing to their interpretability, are attractive as control policies for (dynamical) systems. Unfortunately, constructing, or synthesising, such policies is a challenging task. Previous approaches do so by imitating a neural-network policy, approximating a tabular policy obtained via formal synthesis, employing reinforcement learning, or modelling the problem as a mixed-integer linear program. However, these works may require access to a hard-to-obtain accurate policy or a formal model of the environment (within reach of formal synthesis), and may not provide guarantees on the quality or size of the final tree policy. In contrast, we present an approach to synthesise optimal decision-tree policies given a black-box environment and specification, and a discretisation of the tree predicates, where optimality is defined with respect to the number of steps to achieve the goal. Our approach is a specialised search algorithm which systematically explores the (exponentially large) space of decision trees under the given discretisation. The key component is a novel pruning mechanism that significantly reduces the search space. Our approach represents a conceptually novel way of synthesising small decision-tree policies with optimality guarantees even for black-box environments with black-box specifications.
- Abstract(参考訳): 決定木はその解釈可能性のため、(力学)システムの制御ポリシーとして魅力的である。
残念ながら、このようなポリシーの構築や合成は難しい作業です。
従来のアプローチでは、ニューラルネットワークポリシーを模倣し、形式的な合成、強化学習の利用、あるいは混合整数線形プログラムとして問題をモデル化することで得られる表形式のポリシーを近似する。
しかし、これらの研究は、(形式的な合成に至らず)確固たる政策や環境の形式的なモデルにアクセスできる必要があり、最終ツリーポリシーの品質やサイズを保証できないかもしれない。
対照的に、ブラックボックス環境と仕様が与えられた最適決定木ポリシーと、その目標を達成するためのステップの数に関して最適性を定義する木述語の離散化を合成するアプローチを提案する。
我々のアプローチは、与えられた離散化の下で決定木の(指数的に大きい)空間を体系的に探索する特殊探索アルゴリズムである。
鍵となるコンポーネントは、検索スペースを大幅に削減する新しいプルーニング機構である。
提案手法は,ブラックボックス仕様のブラックボックス環境であっても,最適性を保証する小さな決定ツリーポリシーを合成する方法として,概念的に新しいものである。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - SYMPOL: Symbolic Tree-Based On-Policy Reinforcement Learning [9.035959289139102]
本稿では,SYMbolic tree-based on-POLicy RLの新しい手法であるSYMPOLを紹介する。
SYMPOLは、ポリシー勾配法と統合されたツリーベースのモデルを採用しており、エージェントはそのアクションを学習し、適応することができる。
我々は、SYMPOLを一連のベンチマークRLタスクで評価し、代替木ベースのRLアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T14:04:40Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - Optimal Decision Tree Policies for Markov Decision Processes [7.995360025953931]
マルコフ決定過程(MPD)におけるサイズ制限決定木の最適化について検討する。
これは、模倣学習の固有の欠点、すなわち、複雑なポリシーが、サイズ制限木を使って表現できないことによるものである。
一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、OMDTは3の深さに制限され、しばしば最適限に近い性能を示す。
論文 参考訳(メタデータ) (2023-01-30T18:51:02Z) - Policy learning for many outcomes of interest: Combining optimal policy
trees with multi-objective Bayesian optimisation [0.0]
多目的政策学習は、ポリシー学習のための最適な決定木と、多目的ベイズ最適化アプローチを組み合わせる。
本手法はケニアにおける抗マラリア薬の非価格設定の現実世界のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-12-13T01:39:14Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。