論文の概要: Clustered Policy Decision Ranking
- arxiv url: http://arxiv.org/abs/2311.12970v1
- Date: Tue, 21 Nov 2023 20:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:09:40.735711
- Title: Clustered Policy Decision Ranking
- Title(参考訳): クラスタ化政策決定ランキング
- Authors: Mark Levin and Hana Chockler
- Abstract要約: n の時間ステップのあるエピソードでは、ポリシーは取るべき行動について n の判断をするが、その多くが観察者には直感的でないように見える。
これらの決定のどちらが報酬の達成に直接貢献し、その貢献がどの程度重要かは明らかでない。
統計的共分散推定に基づくブラックボックス手法を提案し,その状態における決定の重要度に応じて,各クラスタをクラスタ化してランク付けする。
- 参考スコア(独自算出の注目度): 7.487718119544156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policies trained via reinforcement learning (RL) are often very complex even
for simple tasks. In an episode with n time steps, a policy will make n
decisions on actions to take, many of which may appear non-intuitive to the
observer. Moreover, it is not clear which of these decisions directly
contribute towards achieving the reward and how significant their contribution
is. Given a trained policy, we propose a black-box method based on statistical
covariance estimation that clusters the states of the environment and ranks
each cluster according to the importance of decisions made in its states. We
compare our measure against a previous statistical fault localization based
ranking procedure.
- Abstract(参考訳): 強化学習(RL)によって訓練された政策は、単純な作業であっても非常に複雑であることが多い。
nの時間ステップを持つエピソードでは、ポリシーはアクションを n 回決定し、その多くがオブザーバーに直観的でないように見える。
さらに、どの決定が報酬の達成に直接寄与するか、その貢献がどの程度重要かは明らかではない。
訓練されたポリシーが与えられた場合,環境の状態を分類し,その状態における決定の重要性に応じて各クラスタをランク付けする統計的共分散推定に基づくブラックボックス法を提案する。
我々は,過去の統計的断層定位に基づくランク付け手法と比較した。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Generalizing Off-Policy Learning under Sample Selection Bias [15.733136147164032]
本稿では,対象人口に一般化する学習政策の枠組みを提案する。
不確実性セットが適切に特定されている場合、トレーニングデータよりも悪いことができないため、我々の政策が対象人口に一般化されることを実証する。
論文 参考訳(メタデータ) (2021-12-02T16:18:16Z) - Causal policy ranking [3.7819322027528113]
トレーニングされた政策を前提として,これらの決定が報奨達成に与える因果効果を推定する対実的推論に基づくブラックボックス手法を提案する。
本研究は, 因果アルゴリズムをRLエージェントポリシーの解釈に組み込んだ, 代替的, 非因果的, ランク付け手順と比較し, 今後の課題について考察する。
論文 参考訳(メタデータ) (2021-11-16T12:33:36Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Ranking Policy Decisions [14.562620527204686]
強化学習(RL)を通じて訓練された政策は、しばしば不必要に複雑であり、分析や解釈が困難である。
そこで我々は,これらの状況における意思決定の重要性に応じて環境の状態をランク付けする,統計的断層定位に基づく新しいブラックボックス手法を提案する。
論文 参考訳(メタデータ) (2020-08-31T13:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。