論文の概要: Policy Optimization with Sparse Global Contrastive Explanations
- arxiv url: http://arxiv.org/abs/2207.06269v1
- Date: Wed, 13 Jul 2022 15:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 17:15:55.250540
- Title: Policy Optimization with Sparse Global Contrastive Explanations
- Title(参考訳): 疎グローバルコントラスト説明を用いた政策最適化
- Authors: Jiayu Yao, Sonali Parbhoo, Weiwei Pan, Finale Doshi-Velez
- Abstract要約: 我々は,スパースかつユーザ解釈可能な変更を通じて,既存の行動ポリシーを改善するための強化学習(RL)フレームワークを開発する。
私たちのゴールは、可能な限り多くの利益を得ながら、最小限の変更を行うことです。
- 参考スコア(独自算出の注目度): 30.2745239548917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a Reinforcement Learning (RL) framework for improving an existing
behavior policy via sparse, user-interpretable changes. Our goal is to make
minimal changes while gaining as much benefit as possible. We define a minimal
change as having a sparse, global contrastive explanation between the original
and proposed policy. We improve the current policy with the constraint of
keeping that global contrastive explanation short. We demonstrate our framework
with a discrete MDP and a continuous 2D navigation domain.
- Abstract(参考訳): スパースかつユーザ解釈可能な変更を通じて既存の行動ポリシーを改善するための強化学習(RL)フレームワークを開発する。
私たちの目標は、可能な限り多くの利益を得ながら、最小限の変更を行うことです。
私たちは、最小限の変更を、オリジナルポリシーと提案されたポリシーのスパースでグローバルな対比的な説明と定義します。
我々は、そのグローバルな対比的な説明を短く保ちながら、現在の政策を改善する。
我々は,個別のMDPと連続した2次元ナビゲーションドメインでフレームワークを実証する。
関連論文リスト
- Policy Gradient for Robust Markov Decision Processes [16.281897051782863]
本稿では、ロバストなマルコフ決定過程(MDP)を解くために、新しいポリシー勾配法であるダブルループロバストポリシーミラーDescent(MD)を提案する。
MDは、イテレーション毎の適応耐性を持つポリシー最適化に一般的なミラー降下更新ルールを採用し、グローバルな最適ポリシーへの収束を保証する。
我々は,直接パラメータ化とソフトマックスパラメータ化の両方の下での新しい収束結果を含むMDの包括的解析を行い,トランジションミラー・アセンション(TMA)による内部問題の解に対する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-29T15:16:02Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - AdaRL: What, Where, and How to Adapt in Transfer Reinforcement Learning [18.269412736181852]
我々はAdaRLと呼ばれる適応RLの原理的フレームワークを提案し、ドメイン間の変化に確実に適応する。
AdaRLは、ターゲットドメインでさらなるポリシー最適化を行うことなく、少数のサンプルでポリシーを適応できることを示す。
本稿では,AdaRLがCartpole と Atari の異なるコンポーネントに変化をもたらすための一連の実験を通じて有効性を示す。
論文 参考訳(メタデータ) (2021-07-06T16:56:25Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。