Fugu-MT 論文翻訳(概要): Generalized Principal-Agent Problem with a Learning Agent

論文の概要: Generalized Principal-Agent Problem with a Learning Agent

arxiv url: http://arxiv.org/abs/2402.09721v5
Date: Mon, 25 Nov 2024 14:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.802186
Title: Generalized Principal-Agent Problem with a Learning Agent
Title（参考訳）: 学習エージェントを用いた一般化プライマリエージェント問題
Authors: Tao Lin, Yiling Chen,
Abstract要約: 古典的なプリンシパルエージェント問題は、エージェントがプリンシパルのコミット戦略に最も反応できると仮定することが多い。エージェントが平均的学習アルゴリズム(regretではないが、swap-regretではない)を使用する場合、プリンシパルは$U*$よりもはるかに優れた処理を行うことができる。
参考スコア（独自算出の注目度）: 6.2458948163267785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Classic principal-agent problems such as Stackelberg games, contract design, and Bayesian persuasion, often assume that the agent is able to best respond to the principal's committed strategy. We study repeated generalized principal-agent problems under the assumption that the principal does not have commitment power and the agent uses algorithms to learn to respond to the principal. We reduce this problem to a one-shot generalized principal-agent problem where the agent approximately best responds. Using this reduction, we show that: (1) If the agent uses contextual no-regret learning algorithms with regret $\mathrm{Reg}(T)$, then the principal can guarantee utility at least $U^* - \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$, where $U^*$ is the principal's optimal utility in the classic model with a best-responding agent. (2) If the agent uses contextual no-swap-regret learning algorithms with swap-regret $\mathrm{SReg}(T)$, then the principal cannot obtain utility more than $U^* + O(\frac{\mathrm{SReg(T)}}{T})$. But (3) if the agent uses mean-based learning algorithms (which can be no-regret but not no-swap-regret), then the principal can sometimes do significantly better than $U^*$. These results not only refine previous results in Stackelberg games and contract design, but also lead to new results for Bayesian persuasion with a learning agent and all generalized principal-agent problems where the agent does not have private information.
Abstract（参考訳）: Stackelbergゲーム、契約設計、ベイズ的説得のような古典的なプリンシパルエージェント問題は、エージェントがプリンシパルのコミット戦略に最もよく対応できると仮定することが多い。本研究では,主観的主観的問題を,主観的主観的主観的主観的問題に対して,主観的主観的主観的問題と,主観的主観的主観的問題と,主観的主観的主観的問題とを交互に検討する。この問題を、エージェントがほぼ最もよく応答する1ショットの一般化された主エージェント問題に還元する。この縮小を用いて、(1) エージェントが後悔する$\mathrm{Reg}(T)$で文脈非回帰学習アルゴリズムを使用する場合、プリンシパルは少なくとも$U^* - \Theta\big(\sqrt{\tfrac{\mathrm{Reg}(T)}{T}}\big)$を保証できる。 2) エージェントがスワップ-regret$\mathrm{SReg}(T)$でコンテキスト非スワップ-regret学習アルゴリズムを使用する場合、プリンシパルは$U^* + O(\frac{\mathrm{SReg(T)}}{T})$以上のユーティリティを得ることはできない。しかし(3) エージェントが平均的学習アルゴリズム(非相対的だが非相対的)を使用する場合、プリンシパルは時として$U^*$よりもはるかに優れた処理を行うことができる。これらの結果は、Stackelbergゲームやコントラクトデザインにおける以前の結果を洗練するだけでなく、学習エージェントによるベイズ的説得と、エージェントがプライベート情報を持っていないすべての一般化された主エージェント問題に対する新たな結果をもたらす。

関連論文リスト

Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文参考訳（メタデータ） (2025-06-10T04:25:04Z)
Learning to Incentivize in Repeated Principal-Agent Problems with Adversarial Agent Arrivals [19.575710928077346]
有限地平線上の主エージェント問題の繰り返しを$T$で研究する。我々はその問題が難解になり、線形後悔に繋がることを示した。
論文参考訳（メタデータ） (2025-05-29T05:46:01Z)
On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文参考訳（メタデータ） (2024-08-02T03:25:20Z)
Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-06T16:00:46Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and Limited Liability [6.512509337399156]
本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
論文参考訳（メタデータ） (2024-02-27T01:01:59Z)
Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文参考訳（メタデータ） (2024-01-29T14:53:22Z)
Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文参考訳（メタデータ） (2023-12-30T18:30:44Z)
Learning Optimal Contracts: How to Exploit Small Action Spaces [37.92189925462977]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。約最適契約を高い確率で学習するアルゴリズムを設計する。また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文参考訳（メタデータ） (2023-09-18T14:18:35Z)
Learning to Incentivize Information Acquisition: Proper Scoring Rules Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。 UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文参考訳（メタデータ） (2023-03-15T13:40:16Z)
Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-08-19T15:49:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。