論文の概要: There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes
- arxiv url: http://arxiv.org/abs/2206.04266v1
- Date: Thu, 9 Jun 2022 04:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:05:19.015858
- Title: There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes
- Title(参考訳): 迷路の強化学習には正確性・解釈性トレードオフがない
- Authors: Yishay Mansour, Michal Moshkovitz, Cynthia Rudin
- Abstract要約: 相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
- 参考スコア(独自算出の注目度): 64.05903267230467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability is an essential building block for trustworthiness in
reinforcement learning systems. However, interpretability might come at the
cost of deteriorated performance, leading many researchers to build complex
models. Our goal is to analyze the cost of interpretability. We show that in
certain cases, one can achieve policy interpretability while maintaining its
optimality. We focus on a classical problem from reinforcement learning: mazes
with $k$ obstacles in $\mathbb{R}^d$. We prove the existence of a small
decision tree with a linear function at each inner node and depth $O(\log k +
2^d)$ that represents an optimal policy. Note that for the interesting case of
a constant $d$, we have $O(\log k)$ depth. Thus, in this setting, there is no
accuracy-interpretability tradeoff. To prove this result, we use a new
"compressing" technique that might be useful in additional settings.
- Abstract(参考訳): 通訳性は強化学習システムにおける信頼性に不可欠な構成要素である。
しかし、解釈容易性は性能低下の犠牲となり、多くの研究者が複雑なモデルを構築することになった。
私たちの目標は、解釈可能性のコストを分析することです。
ある場合には、その最適性を維持しながら、ポリシー解釈可能性を達成できることを示す。
我々は強化学習から古典的な問題に焦点をあてる:$k$の障害を持つ迷路は$\mathbb{R}^d$である。
我々は、各内部ノードに線型関数を持つ小さな決定木と、最適ポリシーを表す深さ$O(\log k + 2^d)$の存在を証明した。
一定の$d$ の興味深い場合、$o(\log k)$ の深さがあることに注意してください。
したがって、この設定では精度-解釈可能性のトレードオフはない。
この結果を証明するために、追加設定で有用かもしれない新しい"圧縮"技術を使用します。
関連論文リスト
- Partial Identifiability and Misspecification in Inverse Reinforcement Learning [64.13583792391783]
Inverse Reinforcement Learning の目的は、報酬関数 $R$ をポリシー $pi$ から推論することである。
本稿では,IRLにおける部分的識別性と不特定性について包括的に分析する。
論文 参考訳(メタデータ) (2024-11-24T18:35:46Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - A Few Expert Queries Suffices for Sample-Efficient RL with Resets and
Linear Value Approximation [16.29514743112387]
最適値関数のみを線形化可能な設定において、サンプル効率のよい強化学習(RL)について検討する。
専門的なクエリと探索をブレンドするための統計的・計算学的に効率的なアルゴリズム(Delphi)を提案する。
Delphi には $tildemathcalO(d)$ エキスパートクエリと $texttpoly(d,|mathcalA|,1/varepsilon)$ 探索サンプルの量が必要です。
論文 参考訳(メタデータ) (2022-07-18T01:39:13Z) - Certifiably Robust Interpretation via Renyi Differential Privacy [77.04377192920741]
我々はRenyi差分プライバシー(RDP)の新しい視点から解釈堅牢性の問題を研究する。
まず、証明可能で証明可能なトップ$k$ロバスト性を提供する。
第二に、提案手法は既存の手法よりも実験的堅牢性を$sim10%$で提供する。
第3に,ロバスト性と計算効率のトレードオフを円滑に行うことができる。
論文 参考訳(メタデータ) (2021-07-04T06:58:01Z) - Agnostic Reinforcement Learning with Low-Rank MDPs and Rich Observations [79.66404989555566]
我々は、リッチな観測空間を持つより現実的な非依存的RLの設定と、近似的ポリシーを含まないような固定されたポリシーのクラス$Pi$を考える。
我々は,MDPの階数$d$の誤差が有界な設定のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-22T03:20:40Z) - Corruption-Robust Offline Reinforcement Learning [19.300465320692066]
オフライン強化学習における対向的堅牢性について検討する。
最悪な$Omega(デプシロン)最適性ギャップは避けられないことを示す。
本稿では,Last-Square Value Iteration (LSVI)アルゴリズムのロバストな変種を提案する。
論文 参考訳(メタデータ) (2021-06-11T22:41:53Z) - Agnostic learning with unknown utilities [70.14742836006042]
現実世界の多くの問題において、決定の効用は基礎となる文脈である$x$ と decision $y$ に依存する。
我々はこれを未知のユーティリティによる不可知学習として研究する。
サンプルされた点のみのユーティリティを推定することで、よく一般化した決定関数を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-17T08:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。