論文の概要: Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards
- arxiv url: http://arxiv.org/abs/2308.06717v1
- Date: Sun, 13 Aug 2023 08:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:43:22.542850
- Title: Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards
- Title(参考訳): 隠れ報酬による不完全知識エージェントの推定とインセンティブ化
- Authors: Ilgin Dogan, Zuo-Jun Max Shen, Anil Aswani
- Abstract要約: 実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
- 参考スコア(独自算出の注目度): 4.742123770879715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practice, incentive providers (i.e., principals) often cannot observe the
reward realizations of incentivized agents, which is in contrast to many
principal-agent models that have been previously studied. This information
asymmetry challenges the principal to consistently estimate the agent's unknown
rewards by solely watching the agent's decisions, which becomes even more
challenging when the agent has to learn its own rewards. This complex setting
is observed in various real-life scenarios ranging from renewable energy
storage contracts to personalized healthcare incentives. Hence, it offers not
only interesting theoretical questions but also wide practical relevance. This
paper explores a repeated adverse selection game between a self-interested
learning agent and a learning principal. The agent tackles a multi-armed bandit
(MAB) problem to maximize their expected reward plus incentive. On top of the
agent's learning, the principal trains a parallel algorithm and faces a
trade-off between consistently estimating the agent's unknown rewards and
maximizing their own utility by offering adaptive incentives to lead the agent.
For a non-parametric model, we introduce an estimator whose only input is the
history of principal's incentives and agent's choices. We unite this estimator
with a proposed data-driven incentive policy within a MAB framework. Without
restricting the type of the agent's algorithm, we prove finite-sample
consistency of the estimator and a rigorous regret bound for the principal by
considering the sequential externality imposed by the agent. Lastly, our
theoretical results are reinforced by simulations justifying applicability of
our framework to green energy aggregator contracts.
- Abstract(参考訳): 実際には、インセンティブ提供者(すなわち、プリンシパル)は、これまで研究されてきた多くのプリンシパル・エージェントモデルとは対照的に、インセンティブ付きエージェントの報酬実現を観察できないことが多い。
この情報非対称性は、エージェントの判断のみを観察することで、エージェントの未知の報酬を一貫して見積もることに挑戦する。
この複雑な設定は、再生可能エネルギー貯蔵契約からパーソナライズされた医療インセンティブまで、様々な現実のシナリオで観察される。
したがって、興味深い理論的問題だけでなく、幅広い実践的関連性も提供する。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
エージェントは、期待される報酬とインセンティブを最大化するために、マルチアームバンディット(MAB)問題に取り組む。
エージェントの学習に加えて、プリンシパルは並列アルゴリズムを訓練し、エージェントの未知の報酬を一貫して推定し、エージェントをリードするために適応的なインセンティブを提供することで、自身のユーティリティを最大化するトレードオフに直面します。
非パラメトリックモデルでは、主席のインセンティブとエージェントの選択の歴史のみを入力とする推定器を導入する。
我々は、この推定とデータ駆動型インセンティブポリシーをMABフレームワーク内で統合する。
エージェントのアルゴリズムの型を制限することなく、エージェントが課す逐次的外部性を考慮して、推定器の有限サンプル整合性と主成分に対する厳密な後悔を証明した。
最後に,グリーンエネルギーアグリゲータ契約の適用性を正当化するシミュレーションにより,我々の理論結果を補強する。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents [5.773269033551628]
マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
論文 参考訳(メタデータ) (2023-04-14T21:57:16Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。