論文の概要: Ranking Policy Decisions
- arxiv url: http://arxiv.org/abs/2008.13607v3
- Date: Tue, 26 Oct 2021 17:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:43:36.451768
- Title: Ranking Policy Decisions
- Title(参考訳): 政策決定のランク付け
- Authors: Hadrien Pouget, Hana Chockler, Youcheng Sun, Daniel Kroening
- Abstract要約: 強化学習(RL)を通じて訓練された政策は、しばしば不必要に複雑であり、分析や解釈が困難である。
そこで我々は,これらの状況における意思決定の重要性に応じて環境の状態をランク付けする,統計的断層定位に基づく新しいブラックボックス手法を提案する。
- 参考スコア(独自算出の注目度): 14.562620527204686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policies trained via Reinforcement Learning (RL) are often needlessly
complex, making them difficult to analyse and interpret. In a run with $n$ time
steps, a policy will make $n$ decisions on actions to take; we conjecture that
only a small subset of these decisions delivers value over selecting a simple
default action. Given a trained policy, we propose a novel black-box method
based on statistical fault localisation that ranks the states of the
environment according to the importance of decisions made in those states. We
argue that among other things, the ranked list of states can help explain and
understand the policy. As the ranking method is statistical, a direct
evaluation of its quality is hard. As a proxy for quality, we use the ranking
to create new, simpler policies from the original ones by pruning decisions
identified as unimportant (that is, replacing them by default actions) and
measuring the impact on performance. Our experiments on a diverse set of
standard benchmarks demonstrate that pruned policies can perform on a level
comparable to the original policies. Conversely, we show that naive approaches
for ranking policy decisions, e.g., ranking based on the frequency of visiting
a state, do not result in high-performing pruned policies.
- Abstract(参考訳): 強化学習(RL)を通じて訓練された政策は、しばしば不必要に複雑であり、分析や解釈が困難である。
私たちは、これらの決定のごく一部だけが、単純なデフォルトアクションを選択することよりも価値をもたらすと推測しています。
訓練された政策を前提として,これらの状況における意思決定の重要性に応じて環境の状態をランク付けする統計的故障局所化に基づく新しいブラックボックス手法を提案する。
我々は、列挙された国家のリストが政策の説明と理解に役立つと論じている。
ランキング法は統計的であるため、その品質の直接評価は難しい。
品質の代理人として、重要でない(つまり、デフォルトのアクションで置き換えられる)決定を下し、パフォーマンスへの影響を測定することで、元のポリシーから新しいシンプルなポリシーを作成するためにランキングを使用します。
各種標準ベンチマーク実験により, プルーニングされたポリシーは, 当初のポリシーに匹敵するレベルで実行可能であることが示された。
逆に, 国家訪問頻度に基づくランク付けなど, 政策決定におけるナイーブなアプローチは, 高パフォーマンスなプランニング政策を生じないことを示す。
関連論文リスト
- Clustered Policy Decision Ranking [6.338178373376447]
n の時間ステップのあるエピソードでは、ポリシーは取るべき行動について n の判断をするが、その多くが観察者には直感的でないように見える。
これらの決定のどちらが報酬の達成に直接貢献し、その貢献がどの程度重要かは明らかでない。
統計的共分散推定に基づくブラックボックス手法を提案し,その状態における決定の重要度に応じて,各クラスタをクラスタ化してランク付けする。
論文 参考訳(メタデータ) (2023-11-21T20:16:02Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - General Policy Evaluation and Improvement by Learning to Identify Few
But Crucial States [12.059140532198064]
政策評価と改善の学習は強化学習の中核的な問題である。
最近検討された競合の代替手段は、多くのポリシーで単一の値関数を学ぶことである。
NNポリシを評価するために訓練された値関数も,ポリシアーキテクチャの変更に不変であることを示す。
論文 参考訳(メタデータ) (2022-07-04T16:34:53Z) - Causal policy ranking [3.7819322027528113]
トレーニングされた政策を前提として,これらの決定が報奨達成に与える因果効果を推定する対実的推論に基づくブラックボックス手法を提案する。
本研究は, 因果アルゴリズムをRLエージェントポリシーの解釈に組み込んだ, 代替的, 非因果的, ランク付け手順と比較し, 今後の課題について考察する。
論文 参考訳(メタデータ) (2021-11-16T12:33:36Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。