論文の概要: Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments
- arxiv url: http://arxiv.org/abs/2208.11040v1
- Date: Tue, 23 Aug 2022 15:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:02:30.333432
- Title: Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments
- Title(参考訳): 情報非対称性の存在下での戦略的意思決定:アルゴリズムによる効率的なrl
- Authors: Mengxin Yu, Zhuoran Yang, Jianqing Fan
- Abstract要約: 我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
- 参考スコア(独自算出の注目度): 55.41685740015095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline reinforcement learning under a novel model called strategic
MDP, which characterizes the strategic interactions between a principal and a
sequence of myopic agents with private types. Due to the bilevel structure and
private types, strategic MDP involves information asymmetry between the
principal and the agents. We focus on the offline RL problem, where the goal is
to learn the optimal policy of the principal concerning a target population of
agents based on a pre-collected dataset that consists of historical
interactions. The unobserved private types confound such a dataset as they
affect both the rewards and observations received by the principal. We propose
a novel algorithm, Pessimistic policy Learning with Algorithmic iNstruments
(PLAN), which leverages the ideas of instrumental variable regression and the
pessimism principle to learn a near-optimal principal's policy in the context
of general function approximation. Our algorithm is based on the critical
observation that the principal's actions serve as valid instrumental variables.
In particular, under a partial coverage assumption on the offline dataset, we
prove that PLAN outputs a $1 / \sqrt{K}$-optimal policy with $K$ being the
number of collected trajectories. We further apply our framework to some
special cases of strategic MDP, including strategic regression, strategic
bandit, and noncompliance in recommendation systems.
- Abstract(参考訳): オフライン強化学習を戦略mdp(strategic mdp)と呼ばれる新しいモデルで検討し, 主観的エージェントと個人的エージェントの一連の戦略的相互作用を特徴付ける。
双方向構造とプライベートタイプのため、戦略MDPは主成分とエージェント間の情報非対称性を含む。
我々は,歴史的な相互作用からなる予め収集されたデータセットに基づいて,エージェントのターゲット集団に関するプリンシパルの最適方針を学ぶことを目的としたオフラインrl問題に焦点を当てる。
観測されていないプライベートタイプは、プリンシパルが受け取った報酬と観察の両方に影響を与えるため、そのようなデータセットを共用する。
本研究では,一般関数近似の文脈で最適に近い主旨の方針を学ぶために,変数回帰と悲観主義原理を活用した新しいアルゴリズムであるアルゴリズムを用いた悲観主義的政策学習(plan)を提案する。
本アルゴリズムは,主成分の作用が有効なインストゥルメンタル変数として働くという批判的観測に基づく。
特に、オフラインデータセットの部分的カバレッジ仮定の下では、PLANが1/ \sqrt{K}$-optimal policyを出力し、$K$が収集された軌跡の数であることを示す。
さらに,戦略回帰,戦略バンディット,レコメンデーションシステムにおける非準拠など,戦略mdpの特別なケースにも適用する。
関連論文リスト
- Non-linear Welfare-Aware Strategic Learning [10.448052192725168]
本稿では,戦略的個人行動の存在下でのアルゴリズム的意思決定について考察する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化する。
制限条件下でのみ3つの福祉が同時に最適な状態が得られることを示す。
論文 参考訳(メタデータ) (2024-05-03T01:50:03Z) - Differentially Private Deep Model-Based Reinforcement Learning [47.651861502104715]
形式的な差分プライバシー保証を備えたモデルベースRLアルゴリズムであるPriMORLを紹介する。
PriMORLはオフラインデータから環境の軌道レベルのDPモデルのアンサンブルを学習する。
論文 参考訳(メタデータ) (2024-02-08T10:05:11Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。