論文の概要: Causal policy ranking
- arxiv url: http://arxiv.org/abs/2111.08415v1
- Date: Tue, 16 Nov 2021 12:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 13:49:21.979364
- Title: Causal policy ranking
- Title(参考訳): 因果政策ランキング
- Authors: Daniel McNamee, Hana Chockler
- Abstract要約: トレーニングされた政策を前提として,これらの決定が報奨達成に与える因果効果を推定する対実的推論に基づくブラックボックス手法を提案する。
本研究は, 因果アルゴリズムをRLエージェントポリシーの解釈に組み込んだ, 代替的, 非因果的, ランク付け手順と比較し, 今後の課題について考察する。
- 参考スコア(独自算出の注目度): 3.7819322027528113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policies trained via reinforcement learning (RL) are often very complex even
for simple tasks. In an episode with $n$ time steps, a policy will make $n$
decisions on actions to take, many of which may appear non-intuitive to the
observer. Moreover, it is not clear which of these decisions directly
contribute towards achieving the reward and how significant is their
contribution. Given a trained policy, we propose a black-box method based on
counterfactual reasoning that estimates the causal effect that these decisions
have on reward attainment and ranks the decisions according to this estimate.
In this preliminary work, we compare our measure against an alternative,
non-causal, ranking procedure, highlight the benefits of causality-based policy
ranking, and discuss potential future work integrating causal algorithms into
the interpretation of RL agent policies.
- Abstract(参考訳): 強化学習(RL)によって訓練された政策は、単純な作業であっても非常に複雑であることが多い。
タイムステップが$n$のエピソードでは、ポリシーがアクションについて$n$の決定を行うが、その多くが観察者には直感的でないように見える。
さらに、これらの決定のどちらが報酬の達成に直接貢献するか、その貢献がどの程度重要かは明らかになっていない。
トレーニングされた政策を前提として,これらの決定が報奨の達成に与える因果効果を推定し,この推定に基づいて意思決定をランク付けするブラックボックス手法を提案する。
本予備研究では,提案手法を代替的,非因果的,ランク付け手順と比較し,因果性に基づく政策ランキングの利点を強調するとともに,因果アルゴリズムをrlエージェントポリシーの解釈に組み込む可能性について検討した。
関連論文リスト
- Clustered Policy Decision Ranking [6.338178373376447]
n の時間ステップのあるエピソードでは、ポリシーは取るべき行動について n の判断をするが、その多くが観察者には直感的でないように見える。
これらの決定のどちらが報酬の達成に直接貢献し、その貢献がどの程度重要かは明らかでない。
統計的共分散推定に基づくブラックボックス手法を提案し,その状態における決定の重要度に応じて,各クラスタをクラスタ化してランク付けする。
論文 参考訳(メタデータ) (2023-11-21T20:16:02Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Safe Policy Learning through Extrapolation: Application to Pre-trial
Risk Assessment [0.0]
我々は,政策の期待された効用を部分的に識別する頑健な最適化手法を開発し,その上で最適な政策を見出す。
このアプローチを、アルゴリズムレコメンデーションの助けを借りて人間が決定する、一般的で重要な設定にまで拡張する。
我々は,既存のリスク評価機器の透明性と解釈可能性を維持する新たな分類・勧告ルールを導出する。
論文 参考訳(メタデータ) (2021-09-22T00:52:03Z) - Ranking Policy Decisions [14.562620527204686]
強化学習(RL)を通じて訓練された政策は、しばしば不必要に複雑であり、分析や解釈が困難である。
そこで我々は,これらの状況における意思決定の重要性に応じて環境の状態をランク付けする,統計的断層定位に基づく新しいブラックボックス手法を提案する。
論文 参考訳(メタデータ) (2020-08-31T13:54:44Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Reinforcement Learning [36.664136621546575]
強化学習(Reinforcement Learning, RL)は適応制御のための一般的なフレームワークであり、多くの領域で効率的であることが証明されている。
本章では、RLの基本的枠組みを示し、優れた政策を学ぶために開発された2つのアプローチのメインファミリーを思い出す。
論文 参考訳(メタデータ) (2020-05-29T06:53:29Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。