論文の概要: Learning Optimal Contracts: How to Exploit Small Action Spaces
- arxiv url: http://arxiv.org/abs/2309.09801v1
- Date: Mon, 18 Sep 2023 14:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:12:45.570053
- Title: Learning Optimal Contracts: How to Exploit Small Action Spaces
- Title(参考訳): 最適な契約を学習する:小さなアクションスペースを爆発させる方法
- Authors: Francesco Bacchiocchi, Matteo Castiglioni, Alberto Marchesi, Nicola
Gatti
- Abstract要約: 本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
- 参考スコア(独自算出の注目度): 41.42695064501541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study principal-agent problems in which a principal commits to an
outcome-dependent payment scheme -- called contract -- in order to induce an
agent to take a costly, unobservable action leading to favorable outcomes. We
consider a generalization of the classical (single-round) version of the
problem in which the principal interacts with the agent by committing to
contracts over multiple rounds. The principal has no information about the
agent, and they have to learn an optimal contract by only observing the outcome
realized at each round. We focus on settings in which the size of the agent's
action space is small. We design an algorithm that learns an
approximately-optimal contract with high probability in a number of rounds
polynomial in the size of the outcome space, when the number of actions is
constant. Our algorithm solves an open problem by Zhu et al.[2022]. Moreover,
it can also be employed to provide a $\tilde{\mathcal{O}}(T^{4/5})$ regret
bound in the related online learning setting in which the principal aims at
maximizing their cumulative utility, thus considerably improving
previously-known regret bounds.
- Abstract(参考訳): 我々は、エージェントが好都合な結果につながるコストのかかる観察不能な行動を起こさせるために、プリンシパルが契約と呼ばれる成果依存の支払いスキームにコミットするプリンシパルエージェントの問題について検討する。
我々は、主成分が複数のラウンドの契約にコミットすることでエージェントと相互作用する問題の古典的(単ラウンド)バージョンの一般化を考える。
プリンシパルはエージェントに関する情報がなく、各ラウンドで達成された結果だけを観察することで最適な契約を学ばなければならない。
エージェントのアクション空間のサイズが小さい設定に焦点を当てる。
動作数が一定である場合,結果空間の大きさの多数の円多項式において,確率の高いほぼ最適契約を学習するアルゴリズムを設計する。
我々のアルゴリズムはZhuらによるオープンな問題を解く。
[2022].
さらに、プリンシパルが累積的効用を最大化することを目的とした関連するオンライン学習環境において、$\tilde{\mathcal{o}}(t^{4/5})$ regret boundを提供することもできる。
関連論文リスト
- Deep Contract Design via Discontinuous Piecewise Affine Neural Networks [27.982213767806094]
最適契約の自動設計のためのディープラーニングの研究を行う。
本稿では,不連続ReLU(DeLU)ネットワークという新しい表現を紹介した。
本研究は,プリンシパルの効用関数の近似に成功を示す実験結果を提供する。
論文 参考訳(メタデータ) (2023-07-05T14:20:20Z) - Sequential Principal-Agent Problems with Communication: Efficient
Computation and Learning [19.613273684856075]
両端に不完全な情報を持つ主要因とエージェント間の逐次的意思決定問題について検討する。
このモデルでは、プリンシパルとエージェントは環境の中で相互作用し、それぞれが他で利用できない状態についての観測にプライベートである。
本稿では,アルゴリズムのアルゴリズムを用いて,主成分の最適ポリシを加法近似まで計算する。
論文 参考訳(メタデータ) (2023-06-06T16:20:44Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Artificial Intelligence and Dual Contract [0.0]
本研究は,人工知能(Multi-agent Q-learning)をベースとした,二元主主語問題に対する作業者共用契約モデルにおけるアルゴリズムの挙動について考察する。
AIアルゴリズムは、外部のガイダンスやコミュニケーションなしに、インセンティブに適合した契約を自律的に設計することを学ぶ。
論文 参考訳(メタデータ) (2023-03-22T07:31:44Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Collaborative Linear Bandits with Adversarial Agents: Near-Optimal
Regret Bounds [31.5504566292927]
我々は, 後悔を最小限に抑えるために, 中央サーバを介して協調できる$M$エージェントを含む線形帯域幅問題を考える。
これらのエージェントのわずか$alpha$は敵対的であり、任意に作用し、次の緊張に繋がる。
我々は、厳密な信頼区間を慎重に構築し、探索と探索のトレードオフをバランスさせる新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-06-06T18:16:34Z) - Efficient Algorithms for Planning with Participation Constraints [74.74967476995572]
我々は[Zhang et al., 2022]に導入された参加制約を伴う計画の問題を考える。
この問題では、プリンシパルが決定プロセスのアクションを選択し、プリンシパルとエージェントの別々のユーティリティが生成される。
有限ホライズン設定では,これまでは$varepsilon$-approximationという付加値しか知られていなかった。
論文 参考訳(メタデータ) (2022-05-16T15:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。