論文の概要: Learning to Incentivize in Repeated Principal-Agent Problems with Adversarial Agent Arrivals
- arxiv url: http://arxiv.org/abs/2505.23124v1
- Date: Thu, 29 May 2025 05:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.702209
- Title: Learning to Incentivize in Repeated Principal-Agent Problems with Adversarial Agent Arrivals
- Title(参考訳): 逆エージェント条件による繰り返し主エージェント問題へのインセンティブの学習
- Authors: Junyan Liu, Arnab Maiti, Artin Tajdini, Kevin Jamieson, Lillian J. Ratliff,
- Abstract要約: 有限地平線上の主エージェント問題の繰り返しを$T$で研究する。
我々はその問題が難解になり、線形後悔に繋がることを示した。
- 参考スコア(独自算出の注目度): 19.575710928077346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of a repeated principal-agent problem over a finite horizon $T$, where a principal sequentially interacts with $K\geq 2$ types of agents arriving in an adversarial order. At each round, the principal strategically chooses one of the $N$ arms to incentivize for an arriving agent of unknown type. The agent then chooses an arm based on its own utility and the provided incentive, and the principal receives a corresponding reward. The objective is to minimize regret against the best incentive in hindsight. Without prior knowledge of agent behavior, we show that the problem becomes intractable, leading to linear regret. We analyze two key settings where sublinear regret is achievable. In the first setting, the principal knows the arm each agent type would select greedily for any given incentive. Under this setting, we propose an algorithm that achieves a regret bound of $O(\min\{\sqrt{KT\log N},K\sqrt{T}\})$ and provide a matching lower bound up to a $\log K$ factor. In the second setting, an agent's response varies smoothly with the incentive and is governed by a Lipschitz constant $L\geq 1$. Under this setting, we show that there is an algorithm with a regret bound of $\tilde{O}((LN)^{1/3}T^{2/3})$ and establish a matching lower bound up to logarithmic factors. Finally, we extend our algorithmic results for both settings by allowing the principal to incentivize multiple arms simultaneously in each round.
- Abstract(参考訳): 有限地平線上の反復主エージェント問題(英語版)の研究を開始し、主エージェントが逆順に到着するエージェントのタイプK\geq 2$と逐次相互作用する。
各ラウンドで、主将は、未知のタイプの到着エージェントにインセンティブを与えるために、N$の武器のうちの1つを戦略的に選択する。
エージェントは、自身のユーティリティと提供されたインセンティブに基づいてアームを選択し、プリンシパルは対応する報酬を受け取る。
目的は、後見における最高のインセンティブに対する後悔を最小限にすることである。
エージェントの動作に関する事前の知識がなければ、問題は難解になり、線形後悔につながる。
サブ線形後悔が達成可能な2つの重要な設定を分析する。
最初の設定では、プリンシパルは各エージェントタイプが任意のインセンティブに対して優しく選択する腕を知っている。
この設定の下では、$O(\min\{\sqrt{KT\log N},K\sqrt{T}\})$の後悔境界を達成し、一致する下限を$\log K$ factorまで提供するアルゴリズムを提案する。
2つ目の設定では、エージェントの反応はインセンティブによって滑らかに変化し、リプシッツ定数$L\geq 1$によって支配される。
この設定の下では、後悔境界が$\tilde{O}((LN)^{1/3}T^{2/3})$のアルゴリズムが存在し、対数的因子に一致する下界を確立する。
最後に、各ラウンドで複数のアームを同時にインセンティブすることで、両方の設定に対するアルゴリズム結果を拡張する。
関連論文リスト
- Heterogeneous Multi-Agent Bandits with Parsimonious Hints [12.709437751500353]
異種多腕包帯問題 (HMA2B) について検討し, エージェントは腕を引っ張るだけでなく, 低コストの観測(隠れ)をクエリできる。
このフレームワークでは、M$エージェントはそれぞれ$K$のアームにユニークな報酬分布を持ち、$T$のラウンドでは、他のエージェントが腕を引っ張らない場合にのみ引き出すアームの報酬を観察することができる。
目標は、腕を引っ張ることなく必要最小限のヒントをクエリし、時間に依存しない後悔を達成することで、全ユーティリティを最大化することである。
論文 参考訳(メタデータ) (2025-02-22T07:46:41Z) - Principal-Agent Bandit Games with Self-Interested and Exploratory Learning Agents [16.514561132180134]
本研究では,エージェントが武器を弾くためのインセンティブを提案することで,主役が未知の環境と間接的に対話する繰り返しプリンシパル・エージェント・バンディットゲームについて検討する。
既存の作業の多くは、エージェントが報酬手段について十分な知識を持っていると仮定し、常に欲張りに振る舞うが、多くのオンラインマーケットプレースでは、エージェントは未知の環境を学び、時には探索する必要がある。
そこで我々は,報酬推定を反復的に更新する探索行動を持つ自己関心学習エージェントをモデル化し,推定報酬プラスインセンティブを最大化するアームを選択するか,一定の確率で任意に探索するアームを選択する。
論文 参考訳(メタデータ) (2024-12-20T20:04:50Z) - Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [37.92189925462977]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Collaborative Multi-agent Stochastic Linear Bandits [28.268809091816287]
我々は,ネットワークを構成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント線形帯域設定について検討する。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
論文 参考訳(メタデータ) (2022-05-12T19:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。