論文の概要: Policy Learning with Competing Agents
- arxiv url: http://arxiv.org/abs/2204.01884v3
- Date: Sat, 16 Dec 2023 04:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 21:43:53.318056
- Title: Policy Learning with Competing Agents
- Title(参考訳): 競合エージェントによる政策学習
- Authors: Roshni Sahoo, Stefan Wager
- Abstract要約: 意思決定者は、しばしば、治療できるエージェントの数に制限された能力の下で、治療の割り当てポリシーを学ぶことを目指している。
本稿では,そのような干渉が存在する場合のキャパシティ制約された処理課題について検討する。
- 参考スコア(独自算出の注目度): 3.512053189243126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision makers often aim to learn a treatment assignment policy under a
capacity constraint on the number of agents that they can treat. When agents
can respond strategically to such policies, competition arises, complicating
estimation of the optimal policy. In this paper, we study capacity-constrained
treatment assignment in the presence of such interference. We consider a
dynamic model where the decision maker allocates treatments at each time step
and heterogeneous agents myopically best respond to the previous treatment
assignment policy. When the number of agents is large but finite, we show that
the threshold for receiving treatment under a given policy converges to the
policy's mean-field equilibrium threshold. Based on this result, we develop a
consistent estimator for the policy gradient. In simulations and a
semi-synthetic experiment with data from the National Education Longitudinal
Study of 1988, we demonstrate that this estimator can be used for learning
capacity-constrained policies in the presence of strategic behavior.
- Abstract(参考訳): 意思決定者は多くの場合、治療できるエージェントの数に対する能力制限の下で、治療割り当てポリシーを学ぶことを目指している。
エージェントがこのようなポリシーに戦略的に対応できる場合、最適なポリシーの見積もりを複雑にする競合が発生する。
本稿では,このような干渉の存在下での容量制限された治療課題について検討する。
我々は, 意思決定者が各段階の処置を割り当てる動的モデルを検討し, 異種エージェントが前回の処置割り当て方針に最もよく反応することを示す。
エージェント数が大きいが有限であれば、与えられたポリシーの下で治療を受けるための閾値が、ポリシーの平均場平衡閾値に収束することを示す。
この結果に基づき,政策勾配の一貫した推定器を開発した。
1988年の国立教育縦断研究のデータを用いたシミュレーションと半合成実験において,この推定器が戦略行動の有無で能力制約のある政策の学習に利用できることを示した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z) - Preventing Imitation Learning with Adversarial Policy Ensembles [79.81807680370677]
模倣学習は、政策プライバシに関する問題を引き起こす専門家を観察することで、ポリシーを再現することができる。
プロプライエタリなポリシーをクローンする外部オブザーバに対して、どうすれば保護できるのか?
新しい強化学習フレームワークを導入し、準最適政策のアンサンブルを訓練する。
論文 参考訳(メタデータ) (2020-01-31T01:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。