論文の概要: Generalized Principal-Agent Problem with a Learning Agent
- arxiv url: http://arxiv.org/abs/2402.09721v4
- Date: Thu, 31 Oct 2024 21:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:48.601902
- Title: Generalized Principal-Agent Problem with a Learning Agent
- Title(参考訳): 学習エージェントを用いた一般化プライマリエージェント問題
- Authors: Tao Lin, Yiling Chen,
- Abstract要約: 古典的なプリンシパルエージェント問題は、エージェントがプリンシパルのコミット戦略に最も反応できると仮定することが多い。
エージェントが平均的学習アルゴリズム(regretではないが、swap-regretではない)を使用する場合、プリンシパルは$U*$よりもはるかに優れた処理を行うことができる。
- 参考スコア(独自算出の注目度): 6.2458948163267785
- License:
- Abstract: Classic principal-agent problems such as Stackelberg games, contract design, and Bayesian persuasion, often assume that the agent is able to best respond to the principal's committed strategy. We study repeated generalized principal-agent problems under the assumption that the principal does not have commitment power and the agent uses algorithms to learn to respond to the principal. We reduce this problem to a one-shot generalized principal-agent problem where the agent approximately best responds. Using this reduction, we show that: (1) If the agent uses contextual no-regret learning algorithms with regret $\mathrm{Reg}(T)$, then the principal can guarantee utility at least $U^* - \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$, where $U^*$ is the principal's optimal utility in the classic model with a best-responding agent. (2) If the agent uses contextual no-swap-regret learning algorithms with swap-regret $\mathrm{SReg}(T)$, then the principal cannot obtain utility more than $U^* + O(\frac{\mathrm{SReg(T)}}{T})$. But (3) if the agent uses mean-based learning algorithms (which can be no-regret but not no-swap-regret), then the principal can sometimes do significantly better than $U^*$. These results not only refine previous results in Stackelberg games and contract design, but also lead to new results for Bayesian persuasion with a learning agent and all generalized principal-agent problems where the agent does not have private information.
- Abstract(参考訳): Stackelbergゲーム、契約設計、ベイズ的説得のような古典的なプリンシパルエージェント問題は、エージェントがプリンシパルのコミット戦略に最もよく対応できると仮定することが多い。
本研究では,主観的主観的問題を,主観的主観的主観的主観的問題に対して,主観的主観的主観的問題と,主観的主観的主観的問題と,主観的主観的主観的問題とを交互に検討する。
この問題を、エージェントがほぼ最もよく応答する1ショットの一般化された主エージェント問題に還元する。
この縮小を用いて、(1) エージェントが後悔する$\mathrm{Reg}(T)$で文脈非回帰学習アルゴリズムを使用する場合、プリンシパルは少なくとも$U^* - \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$を保証できる。
2) エージェントがスワップ-regret$\mathrm{SReg}(T)$でコンテキスト非スワップ-regret学習アルゴリズムを使用する場合、プリンシパルは$U^* + O(\frac{\mathrm{SReg(T)}}{T})$以上のユーティリティを得ることはできない。
しかし(3) エージェントが平均的学習アルゴリズム(非相対的だが非相対的)を使用する場合、プリンシパルは時として$U^*$よりもはるかに優れた処理を行うことができる。
これらの結果は、Stackelbergゲームやコントラクトデザインにおける以前の結果を洗練するだけでなく、学習エージェントによるベイズ的説得と、エージェントがプライベート情報を持っていないすべての一般化された主エージェント問題に対する新たな結果をもたらす。
関連論文リスト
- Exploration and Persuasion [58.87314871998078]
我々は、自己関心のあるエージェントが利用したいときの探索にインセンティブを与える方法を示す。
不確実性の下で決定を下す利己的なエージェントの集団を考える。
彼らは新しい情報を取得し、良い決定を下すためにこの情報を「発見」する。
これは、探査が費用がかかるためであるが、将来多くのエージェントにその利点が広がるためである。
論文 参考訳(メタデータ) (2024-10-22T15:13:13Z) - On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability [6.512509337399156]
本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
論文 参考訳(メタデータ) (2024-02-27T01:01:59Z) - Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [37.92189925462977]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。