論文の概要: New Perspectives in Online Contract Design: Heterogeneous, Homogeneous,
Non-myopic Agents and Team Production
- arxiv url: http://arxiv.org/abs/2403.07143v1
- Date: Mon, 11 Mar 2024 20:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:45:52.760586
- Title: New Perspectives in Online Contract Design: Heterogeneous, Homogeneous,
Non-myopic Agents and Team Production
- Title(参考訳): オンラインコントラクト設計の新しい視点:不均一、均一、非心筋エージェントとチーム生産
- Authors: Shiliang Zuo
- Abstract要約: オンライン学習の観点から,反復する主エージェント問題について検討する。
各設定で学習アルゴリズムを設計するための様々なアプローチとテクニックを提示します。
- 参考スコア(独自算出の注目度): 2.296475290901356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the repeated principal-agent problem from an online
learning perspective. The principal's goal is to learn the optimal contract
that maximizes her utility through repeated interactions, without prior
knowledge of the agent's type (i.e., the agent's cost and production
functions).
I study three different settings when the principal contracts with a
$\textit{single}$ agent each round: 1. The agents are heterogeneous; 2. the
agents are homogenous; 3. the principal interacts with the same agent and the
agent is non-myopic. I present different approaches and techniques for
designing learning algorithms in each setting. For heterogeneous agent types, I
identify a condition that allows the problem to be reduced to Lipschitz bandits
directly. For identical agents, I give a polynomial sample complexity scheme to
learn the optimal contract based on inverse game theory. For strategic
non-myopic agents, I design a low strategic-regret mechanism. Also, I identify
a connection between linear contracts and posted-price auctions, showing the
two can be reduced to one another, and give a regret lower bound on learning
the optimal linear contract based on this observation.
I also study a $\textit{team production}$ model. I identify a condition under
which the principal's learning problem can be reformulated as solving a family
of convex programs, thereby showing the optimal contract can be found
efficiently.
- Abstract(参考訳): 本研究は, オンライン学習の観点から, 繰り返し主エージェント問題について考察する。
プリンシパルのゴールは、エージェントのタイプ(すなわちエージェントのコストと生産機能)を事前に知ることなく、反復的な相互作用を通じて彼女の効用を最大化する最適な契約を学習することである。
私は、$\textit{single}$エージェントとのプリンシパルコントラクトがラウンド毎に3つの異なる設定を研究する。
1.その剤は異質である。
2) 薬剤は均質である。
3. プリンシパルは同一のエージェントと相互作用し、そのエージェントは非ミオピックである。
各設定で学習アルゴリズムを設計するための異なる手法と手法を提案する。
不均一なエージェントタイプに対しては、問題を直接リプシッツ・バンディットに還元できる条件を特定します。
同一エージェントに対して,逆ゲーム理論に基づく最適契約を学習するための多項式サンプル複雑性スキームを与える。
戦略的非筋電的エージェントに対しては、低戦略的反応機構を設計する。
また, 線形契約とポストプライスオークションの関連性を同定し, 両契約を互いに還元できることを示すとともに, この観測に基づいて最適線形契約を学習する上で, 後悔の少ない制約を与える。
また、$\textit{team production}$ modelも研究しています。
主旨の学習問題を凸プログラムのファミリーの解決として再構成できる条件を特定し、最適な契約を効果的に示すことができる。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg
Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Repeated Contracting with Multiple Non-Myopic Agents: Policy Regret and
Limited Liability [6.512509337399156]
本稿では,各ラウンドにおいて,主役が$k$エージェントの中から適応的に選択する契約条件について検討する。
エージェントは非ミオニックであり、プリンシパルのメカニズムはエージェント間でT$ラウンドの広範なフォームゲームを誘導する。
論文 参考訳(メタデータ) (2024-02-27T01:01:59Z) - Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [41.42695064501541]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Distributed Bandits with Heterogeneous Agents [38.90376765616447]
本稿では、M$エージェントが協力して$K$武器の盗賊問題を解くマルチエージェントの盗賊設定に取り組む。
本稿では,ucbo と AAE の2つの学習アルゴリズムを提案する。
Oleft(sum_i:tildeDelta_i>0 log T/tildeDelta_iright)$, $tildeDelta_i$は報酬平均の最小部分最適差である。
論文 参考訳(メタデータ) (2022-01-23T20:04:15Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Regret Bounds for Decentralized Learning in Cooperative Multi-Agent
Dynamical Systems [3.9599054392856488]
マルチエージェント強化学習(MARL)における二次解析の課題
補助単エージェントLQ問題の構成に基づくMARLアルゴリズムを提案する。
我々のアルゴリズムは $tildeO(sqrtT)$ regret bound を提供する。
論文 参考訳(メタデータ) (2020-01-27T23:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。