論文の概要: Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents
- arxiv url: http://arxiv.org/abs/2304.07407v2
- Date: Sun, 7 May 2023 19:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 20:38:02.966183
- Title: Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents
- Title(参考訳): 未観測エージェントリワードと完全知識エージェントを用いた繰り返し主エージェントゲーム
- Authors: Ilgin Dogan, Zuo-Jun Max Shen, and Anil Aswani
- Abstract要約: マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
- 参考スコア(独自算出の注目度): 5.773269033551628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by a number of real-world applications from domains like healthcare
and sustainable transportation, in this paper we study a scenario of repeated
principal-agent games within a multi-armed bandit (MAB) framework, where: the
principal gives a different incentive for each bandit arm, the agent picks a
bandit arm to maximize its own expected reward plus incentive, and the
principal observes which arm is chosen and receives a reward (different than
that of the agent) for the chosen arm. Designing policies for the principal is
challenging because the principal cannot directly observe the reward that the
agent receives for their chosen actions, and so the principal cannot directly
learn the expected reward using existing estimation techniques. As a result,
the problem of designing policies for this scenario, as well as similar ones,
remains mostly unexplored. In this paper, we construct a policy that achieves a
low regret (i.e., square-root regret up to a log factor) in this scenario for
the case where the agent has perfect-knowledge about its own expected rewards
for each bandit arm. We design our policy by first constructing an estimator
for the agent's expected reward for each bandit arm. Since our estimator uses
as data the sequence of incentives offered and subsequently chosen arms, the
principal's estimation can be regarded as an analogy of online inverse
optimization in MAB's. Next we construct a policy that we prove achieves a low
regret by deriving finite-sample concentration bounds for our estimator. We
conclude with numerical simulations demonstrating the applicability of our
policy to real-life setting from collaborative transportation planning.
- Abstract(参考訳): 本稿では、医療や持続可能な輸送といった分野からの多くの現実世界の応用に動機づけられ、マルチアームのバンディット(mab)フレームワーク内で繰り返されるプリンシパルエージェントゲーム(principal-agent game)のシナリオについて検討する。
プリンシパルのポリシー設計は、プリンシパルがエージェントが選択した行動に対して受ける報酬を直接観察できないため、プリンシパルが既存の推定手法を使って期待される報酬を直接学習できないため、難しい。
結果として、このシナリオのためのポリシーを設計する問題は、同様のものと同様に、ほとんど未調査のままである。
本稿では, エージェントが各バンディットアームに対して期待される報酬を十分に把握している場合に, 低い後悔(すなわち, ログファクターに対する平方根の後悔)を達成する政策を構築する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々の推定器は、提供されたインセンティブのシーケンスと選択されたアームのシーケンスをデータとして使用するので、プリンシパルの推定はMABのオンライン逆最適化のアナロジーとみなすことができる。
次に, 推定器の有限サンプル濃度境界を導出することにより, 低い後悔を証明できる方針を構築する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
関連論文リスト
- Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。
UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文 参考訳(メタデータ) (2024-10-08T09:49:47Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Information-Gathering in Latent Bandits [79.6953033727455]
本稿では,潜伏バンドにおける情報収集手法を提案する。
我々は、各州に対するエージェントの信念から、最高の腕を選ぶことは、より高い後悔を引き起こすことを示した。
また,腕を慎重に選択することで,状態分布の推定精度が向上することを示した。
論文 参考訳(メタデータ) (2022-07-08T01:15:12Z) - A Farewell to Arms: Sequential Reward Maximization on a Budget with a
Giving Up Option [5.1629297054995265]
エージェントが一度にひとつのアクションを採り、各アクションが時間的範囲を持つような、シーケンシャルな意思決定問題を考える。
我々は、対数的、問題依存的後悔境界を確立する上で、高い信頼度に基づくアルゴリズム(WAIT-UCB)を導入する。
論文 参考訳(メタデータ) (2020-03-06T22:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。