論文の概要: Keeping Minimal Experience to Achieve Efficient Interpretable Policy
Distillation
- arxiv url: http://arxiv.org/abs/2203.00822v1
- Date: Wed, 2 Mar 2022 02:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 06:41:13.312448
- Title: Keeping Minimal Experience to Achieve Efficient Interpretable Policy
Distillation
- Title(参考訳): 効果的な解釈可能な政策蒸留を実現するための最小限の経験
- Authors: Xiao Liu, Shuyang Liu, Wenbin Li, Shangdong Yang and Yang Gao
- Abstract要約: BCMER(Minimum Experience Retention)を用いた境界評価手法を提案する。
BCMERは、経験の重要性を区別し、ポリシーの類似性がほとんど失われることなく、最小でも重要な経験プールを維持します。
一般に、提案したBCMERは、臨界経験を発見し、冗長な経験をなくすため、記憶の制限された経験に適している。
- 参考スコア(独自算出の注目度): 15.61954535056246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep reinforcement learning has become a universal solution for
complex control tasks, its real-world applicability is still limited because
lacking security guarantees for policies. To address this problem, we propose
Boundary Characterization via the Minimum Experience Retention (BCMER), an
end-to-end Interpretable Policy Distillation (IPD) framework. Unlike previous
IPD approaches, BCMER distinguishes the importance of experiences and keeps a
minimal but critical experience pool with almost no loss of policy similarity.
Specifically, the proposed BCMER contains two basic steps. Firstly, we propose
a novel multidimensional hyperspheres intersection (MHI) approach to divide
experience points into boundary points and internal points, and reserve the
crucial boundary points. Secondly, we develop a nearest-neighbor-based model to
generate robust and interpretable decision rules based on the boundary points.
Extensive experiments show that the proposed BCMER is able to reduce the amount
of experience to 1.4%~19.1% (when the count of the naive experiences is 10k)
and maintain high IPD performance. In general, the proposed BCMER is more
suitable for the experience storage limited regime because it discovers the
critical experience and eliminates redundant experience.
- Abstract(参考訳): 深層強化学習は複雑な制御タスクの普遍的なソリューションとなっているが、その現実の応用性はまだ制限されている。
そこで本研究では,ipd(end-to-end interpretable policy distillation)フレームワークであるminimum experience retain (bcmer) による境界特性評価を提案する。
従来のIDDアプローチとは異なり、BCMERは経験の重要性を区別し、ポリシーの類似性がほとんど失われることなく、最小限ではあるが重要な経験プールを維持している。
具体的には、BCMERは2つの基本的なステップを含む。
まず,経験点を境界点と内部点に分割し,重要な境界点を予約する多次元超球面交叉(MHI)手法を提案する。
第2に,境界点に基づく頑健かつ解釈可能な決定ルールを生成する最寄りの近傍モデルを開発する。
大規模な実験により、提案されたBCMERは、経験の量を1.4%〜19.1%に減らし、高いIDD性能を維持することができることがわかった。
一般に、提案したBCMERは、臨界経験を発見し、冗長な経験をなくすため、記憶の制限された経験に適している。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Trust Region-Based Safe Distributional Reinforcement Learning for
Multiple Constraints [18.064813206191754]
安全分布型アクタークリティカル(SDAC)と呼ばれる複数の制約に対する信頼領域に基づく安全強化学習アルゴリズムを提案する。
主な貢献は次のとおりである: 1) 多制約問題における不実現可能性問題を管理するための勾配積分法を導入し、理論収束を確実にし、2)低バイアスでリスク-逆制約を推定するTD($lambda$)ターゲット分布を開発する。
論文 参考訳(メタデータ) (2023-01-26T04:05:40Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z) - Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文 参考訳(メタデータ) (2021-04-16T15:29:58Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。