論文の概要: IV-Posterior: Inverse Value Estimation for Interpretable Policy
Certificates
- arxiv url: http://arxiv.org/abs/2012.01925v1
- Date: Mon, 30 Nov 2020 21:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 17:48:09.804732
- Title: IV-Posterior: Inverse Value Estimation for Interpretable Policy
Certificates
- Title(参考訳): IV-Posterior:解釈可能な政策証明書の逆値推定
- Authors: Tatiana Lopez-Guevara, Michael Burke, Nicholas K. Taylor, Kartic Subr
- Abstract要約: ポリシーの解釈性の欠如は、下流アプリケーションでのデプロイメントの成功を妨げる可能性がある。
本稿では,解釈可能な政策証明書(IV-Posterior)の逆値推定法を提案する。
政策選択がこれらの政策が持つ帰納的バイアスの知識を取り入れた場合、かなりの性能向上が得られることを示す。
- 参考スコア(独自算出の注目度): 5.650921610324044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free reinforcement learning (RL) is a powerful tool to learn a broad
range of robot skills and policies. However, a lack of policy interpretability
can inhibit their successful deployment in downstream applications,
particularly when differences in environmental conditions may result in
unpredictable behaviour or generalisation failures. As a result, there has been
a growing emphasis in machine learning around the inclusion of stronger
inductive biases in models to improve generalisation. This paper proposes an
alternative strategy, inverse value estimation for interpretable policy
certificates (IV-Posterior), which seeks to identify the inductive biases or
idealised conditions of operation already held by pre-trained policies, and
then use this information to guide their deployment. IV-Posterior uses
MaskedAutoregressive Flows to fit distributions over the set of conditions or
environmental parameters in which a policy is likely to be effective. This
distribution can then be used as a policy certificate in downstream
applications. We illustrate the use of IV-Posterior across a two environments,
and show that substantial performance gains can be obtained when policy
selection incorporates knowledge of the inductive biases that these policies
hold.
- Abstract(参考訳): モデルフリー強化学習(RL)は、幅広いロボットのスキルとポリシーを学ぶための強力なツールである。
しかしながら、政策解釈可能性の欠如は、特に環境条件の違いが予測不可能な振る舞いや一般化の失敗をもたらす場合、下流アプリケーションへの展開の成功を抑制することができる。
その結果、一般化を改善するためにモデルに強い帰納的バイアスを含むことに関して、機械学習に重点が置かれている。
本稿では,プリトレーニングされたポリシがすでに保持している帰納的バイアスや理想化された動作条件を識別し,この情報を用いてデプロイメントを導くための,解釈可能なポリシ証明書(iv-posterior)の逆値推定手法を提案する。
IV-PosteriorはMaskedAutoregressive Flowsを使用して、ポリシーが有効になる可能性のある条件や環境パラメータのセット上の分散を適合させる。
このディストリビューションは、下流アプリケーションでポリシー証明書として使用できる。
我々は,2つの環境におけるiv-posteriorの使用を例示し,これらのポリシーが持つ帰納的バイアスの知識を取り入れることで,実質的なパフォーマンス向上が得られることを示す。
関連論文リスト
- How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。