論文の概要: Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability
- arxiv url: http://arxiv.org/abs/2402.17108v1
- Date: Tue, 27 Feb 2024 01:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:10:13.599211
- Title: Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability
- Title(参考訳): 複数の非ミリ波エージェントによる繰り返し契約:ポリシーレグレットと限定責任
- Authors: Natalie Collina, Varun Gupta, Aaron Roth
- Abstract要約: 本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
- 参考スコア(独自算出の注目度): 6.512509337399156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a repeated contracting setting in which a Principal adaptively
chooses amongst $k$ Agents at each of $T$ rounds. The Agents are non-myopic,
and so a mechanism for the Principal induces a $T$-round extensive form game
amongst the Agents. We give several results aimed at understanding an
under-explored aspect of contract theory -- the game induced when choosing an
Agent to contract with. First, we show that this game admits a pure-strategy
\emph{non-responsive} equilibrium amongst the Agents -- informally an
equilibrium in which the Agent's actions depend on the history of realized
states of nature, but not on the history of each other's actions, and so avoids
the complexities of collusion and threats. Next, we show that if the Principal
selects Agents using a \emph{monotone} bandit algorithm, then for any concave
contract, in any such equilibrium, the Principal obtains no regret to
contracting with the best Agent in hindsight -- not just given their realized
actions, but also to the counterfactual world in which they had offered a
guaranteed $T$-round contract to the best Agent in hindsight, which would have
induced a different sequence of actions. Finally, we show that if the Principal
selects Agents using a monotone bandit algorithm which guarantees no
swap-regret, then the Principal can additionally offer only limited liability
contracts (in which the Agent never needs to pay the Principal) while getting
no-regret to the counterfactual world in which she offered a linear contract to
the best Agent in hindsight -- despite the fact that linear contracts are not
limited liability. We instantiate this theorem by demonstrating the existence
of a monotone no swap-regret bandit algorithm, which to our knowledge has not
previously appeared in the literature.
- Abstract(参考訳): 本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
契約理論の未熟な側面を理解することを目的としたいくつかの結果を提示する -- 契約するエージェントを選択する際に引き起こされるゲーム。
First, we show that this game admits a pure-strategy \emph{non-responsive} equilibrium amongst the Agents -- informally an equilibrium in which the Agent's actions depend on the history of realized states of nature, but not on the history of each other's actions, and so avoids the complexities of collusion and threats. Next, we show that if the Principal selects Agents using a \emph{monotone} bandit algorithm, then for any concave contract, in any such equilibrium, the Principal obtains no regret to contracting with the best Agent in hindsight -- not just given their realized actions, but also to the counterfactual world in which they had offered a guaranteed $T$-round contract to the best Agent in hindsight, which would have induced a different sequence of actions.
最後に、もしプリンシパルが、スワップ・リグレットを保証しないモノトーン・バンディット・アルゴリズムを用いてエージェントを選択すると、プリンシパルは、リニア・コントラクトが制限された責任契約ではないにもかかわらず、(プリンシパルがプリンシパルを支払わなくてもよい)限定的な負債契約のみを提示できるのである。
我々は、この定理を単調なスワップ・レグレット・バンディットアルゴリズムの存在を示すことによってインスタンス化する。
関連論文リスト
- Multi-Agent Stochastic Bandits Robust to Adversarial Corruptions [6.234292942334148]
敵の汚職に頑健なマルチエージェント協調学習アルゴリズムを提案する。
副産物として,本アルゴリズムは,単一エージェントと同種マルチエージェントの両方のシナリオに還元した場合の,最先端の後悔境界も改善する。
論文 参考訳(メタデータ) (2024-11-12T20:20:26Z) - On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits
with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。
具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。
我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文 参考訳(メタデータ) (2023-12-13T06:54:49Z) - Byzantine-Resilient Decentralized Multi-Armed Bandits [25.499420566469098]
エージェント間の情報混合ステップを不整合および極端な値の切り離しで融合するアルゴリズムを開発する。
このフレームワークは、コンピュータネットワークの攻撃者をモデル化したり、攻撃的なコンテンツをレコメンデーターシステムに攻撃したり、金融市場のマニピュレータとして利用することができる。
論文 参考訳(メタデータ) (2023-10-11T09:09:50Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Robust Multi-Agent Multi-Armed Bandits [26.26185074977412]
最近の研究によると、$Kの武器を持った盗賊の独立した事例に直面しているエージェントが、後悔を減らすために協力できることが示されている。
我々は、悪質なエージェントの振る舞いを仮定することなく、$m$が$K$よりも小さいと仮定すると、このアルゴリズムに対するコラボレーションは本当に後悔を減らせることを示した。
論文 参考訳(メタデータ) (2020-07-07T22:27:30Z) - The Gossiping Insert-Eliminate Algorithm for Multi-Agent Bandits [20.259428328004738]
N$エージェントからなる分散マルチエージェントMulti Armed Bandit (MAB) のセットアップを検討する。
我々のモデルでは、エージェントは任意の連結グラフ上で、ペアワイズなゴシップスタイルの通信を通じてメッセージを交換することで協調する。
論文 参考訳(メタデータ) (2020-01-15T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。