論文の概要: RGMDT: Return-Gap-Minimizing Decision Tree Extraction in Non-Euclidean Metric Space
- arxiv url: http://arxiv.org/abs/2410.16517v1
- Date: Mon, 21 Oct 2024 21:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:59.371888
- Title: RGMDT: Return-Gap-Minimizing Decision Tree Extraction in Non-Euclidean Metric Space
- Title(参考訳): RGMDT:非ユークリッド距離空間におけるリターンギャップ最小化決定木抽出
- Authors: Jingdi Chen, Hanhan Zhou, Yongsheng Mei, Carlee Joe-Wong, Gina Adam, Nathaniel D. Bastian, Tian Lan,
- Abstract要約: オラクルの専門家政策と最適決定木政策のリターンギャップの上限について紹介する。
これにより、各エージェントの局所的な観測と行動値空間上で、DT抽出問題を新しい非ユークリッドクラスタリング問題に再キャストすることができる。
また,Return-Gap-Minimization Decision Tree (RGMDT)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.273737052758907
- License:
- Abstract: Deep Reinforcement Learning (DRL) algorithms have achieved great success in solving many challenging tasks while their black-box nature hinders interpretability and real-world applicability, making it difficult for human experts to interpret and understand DRL policies. Existing works on interpretable reinforcement learning have shown promise in extracting decision tree (DT) based policies from DRL policies with most focus on the single-agent settings while prior attempts to introduce DT policies in multi-agent scenarios mainly focus on heuristic designs which do not provide any quantitative guarantees on the expected return. In this paper, we establish an upper bound on the return gap between the oracle expert policy and an optimal decision tree policy. This enables us to recast the DT extraction problem into a novel non-euclidean clustering problem over the local observation and action values space of each agent, with action values as cluster labels and the upper bound on the return gap as clustering loss. Both the algorithm and the upper bound are extended to multi-agent decentralized DT extractions by an iteratively-grow-DT procedure guided by an action-value function conditioned on the current DTs of other agents. Further, we propose the Return-Gap-Minimization Decision Tree (RGMDT) algorithm, which is a surprisingly simple design and is integrated with reinforcement learning through the utilization of a novel Regularized Information Maximization loss. Evaluations on tasks like D4RL show that RGMDT significantly outperforms heuristic DT-based baselines and can achieve nearly optimal returns under given DT complexity constraints (e.g., maximum number of DT nodes).
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)アルゴリズムは、ブラックボックスの性質が解釈可能性や実世界の適用性を妨げている一方で、多くの課題を解決し、DRLポリシーの解釈と理解を困難にしている。
既存の強化学習研究は、DRLポリシーから決定木に基づくポリシーを抽出し、単一のエージェント設定に重点を置いている一方で、複数のエージェントシナリオにDTポリシーを導入しようとする以前の試みは、期待されるリターンを定量的に保証しないヒューリスティックデザインに重点を置いている。
本稿では,オラクル専門家政策と最適決定木政策のリターンギャップの上限を確立する。
これにより、DT抽出問題を、各エージェントの局所的な観察およびアクション値空間上の新しい非ユークリッドクラスタリング問題に再キャストし、クラスタラベルとしてのアクション値と、クラスタリング損失としてのリターンギャップ上の上限を持つことができる。
アルゴリズムと上限の両方を、他のエージェントの現在のDTに条件付けされたアクション値関数によって誘導される反復的に成長するDT手順により、マルチエージェントの分散DT抽出に拡張する。
さらに,Return-Gap-Minimization Decision Tree (RGMDT)アルゴリズムを提案する。
D4RLのようなタスクの評価によると、RGMDTはヒューリスティックDTベースのベースラインを著しく上回り、与えられたDT複雑性制約(DTノードの最大数など)の下でほぼ最適なリターンを達成することができる。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought [13.034968416139826]
In-context Decision Transformer (IDT) を提案する。
IDTは人間の意思決定の効率的な階層構造にインスパイアされている。
IDTは、現在のコンテキスト内RLメソッドよりも長い水平タスクの最先端を実現する。
論文 参考訳(メタデータ) (2024-05-31T08:38:25Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in
IBMDPs [9.587070290189507]
AIモデルの解釈可能性により、ユーザーの安全チェックがそのようなAIの信頼を構築することができる。
決定木(DT)は、学習したモデルをグローバルに見て、どの入力の特徴が決定に重要なのかを透過的に明らかにします。
近年の強化学習フレームワークは,深いRLを用いてDTの空間を探索するために提案されている。
論文 参考訳(メタデータ) (2023-09-23T13:06:20Z) - Optimal Interpretability-Performance Trade-off of Classification Trees
with Black-Box Reinforcement Learning [0.0]
AIモデルの解釈可能性により、モデルの信頼性を構築するためのユーザ安全チェックが可能になる。
決定木(DT)は、学習したモデルに関するグローバルな見解を提供し、与えられたデータを分類するのに重要な機能の役割を明確に概説する。
コンパクトツリーを学習するために、最近DTの空間を探求する強化学習フレームワークが提案されている。
論文 参考訳(メタデータ) (2023-04-11T09:43:23Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。