論文の概要: Learning Optimal Contracts: How to Exploit Small Action Spaces
- arxiv url: http://arxiv.org/abs/2309.09801v1
- Date: Mon, 18 Sep 2023 14:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:12:45.570053
- Title: Learning Optimal Contracts: How to Exploit Small Action Spaces
- Title(参考訳): 最適な契約を学習する:小さなアクションスペースを爆発させる方法
- Authors: Francesco Bacchiocchi, Matteo Castiglioni, Alberto Marchesi, Nicola
Gatti
- Abstract要約: 本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
- 参考スコア(独自算出の注目度): 41.42695064501541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study principal-agent problems in which a principal commits to an
outcome-dependent payment scheme -- called contract -- in order to induce an
agent to take a costly, unobservable action leading to favorable outcomes. We
consider a generalization of the classical (single-round) version of the
problem in which the principal interacts with the agent by committing to
contracts over multiple rounds. The principal has no information about the
agent, and they have to learn an optimal contract by only observing the outcome
realized at each round. We focus on settings in which the size of the agent's
action space is small. We design an algorithm that learns an
approximately-optimal contract with high probability in a number of rounds
polynomial in the size of the outcome space, when the number of actions is
constant. Our algorithm solves an open problem by Zhu et al.[2022]. Moreover,
it can also be employed to provide a $\tilde{\mathcal{O}}(T^{4/5})$ regret
bound in the related online learning setting in which the principal aims at
maximizing their cumulative utility, thus considerably improving
previously-known regret bounds.
- Abstract(参考訳): 我々は、エージェントが好都合な結果につながるコストのかかる観察不能な行動を起こさせるために、プリンシパルが契約と呼ばれる成果依存の支払いスキームにコミットするプリンシパルエージェントの問題について検討する。
我々は、主成分が複数のラウンドの契約にコミットすることでエージェントと相互作用する問題の古典的(単ラウンド)バージョンの一般化を考える。
プリンシパルはエージェントに関する情報がなく、各ラウンドで達成された結果だけを観察することで最適な契約を学ばなければならない。
エージェントのアクション空間のサイズが小さい設定に焦点を当てる。
動作数が一定である場合,結果空間の大きさの多数の円多項式において,確率の高いほぼ最適契約を学習するアルゴリズムを設計する。
我々のアルゴリズムはZhuらによるオープンな問題を解く。
[2022].
さらに、プリンシパルが累積的効用を最大化することを目的とした関連するオンライン学習環境において、$\tilde{\mathcal{o}}(t^{4/5})$ regret boundを提供することもできる。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - New Perspectives in Online Contract Design [2.296475290901356]
本研究は, オンライン学習の観点から, 繰り返し主エージェント問題について考察する。
プリンシパルの目標は、反復的な相互作用を通じて彼女の効用を最大化する最適な契約を学ぶことである。
論文 参考訳(メタデータ) (2024-03-11T20:28:23Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Are Bounded Contracts Learnable and Approximately Optimal? [8.121834515103243]
本稿では,主エージェントが契約を用いてプロジェクトに取り組む動機付けを行う,主エージェント問題の隠れアクションモデルについて考察する。
本研究では,有界決済契約が学習可能か,ほぼ最適かを検討する。
論文 参考訳(メタデータ) (2024-02-22T12:19:19Z) - Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - Deep Contract Design via Discontinuous Networks [23.293185030103544]
本稿では,契約設計における不連続な部分的アフィン関数としてプリンシパルの効用をモデル化する不連続ReLU(DeLU)ネットワークについて紹介する。
DeLUネットワークは、エージェントのインセンティブ互換性制約とプリンシパルの実用目的に対するクローズドフォーム表現を暗黙的に学習する。
少数のトレーニングサンプルとスケーリングでプリンシパルのユーティリティ機能を近似し、多数のアクションと結果を持つ問題に対して、ほぼ最適なコントラクトを見つけるための実証的な結果を提供する。
論文 参考訳(メタデータ) (2023-07-05T14:20:20Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。