論文の概要: Principal-Agent Multitasking: the Uniformity of Optimal Contracts and its Efficient Learning via Instrumental Regression
- arxiv url: http://arxiv.org/abs/2405.20642v1
- Date: Fri, 31 May 2024 07:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:26:33.623734
- Title: Principal-Agent Multitasking: the Uniformity of Optimal Contracts and its Efficient Learning via Instrumental Regression
- Title(参考訳): プリンシパル・エージェント・マルチタスキング:最適契約の一様性とその楽器的回帰による効率的な学習
- Authors: Shiliang Zuo,
- Abstract要約: 本研究はマルチタスクプライマリエージェント問題を研究する。
私はまず一様性の結果を示します。
次に、各タスクの限界効用が不明な環境で研究します。
- 参考スコア(独自算出の注目度): 2.296475290901356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the multitasking principal-agent problem. I first show a ``uniformity'' result. Specifically, when the tasks are perfect substitutes, and the agent's cost function is homogeneous to a certain degree, then the optimal contract only depends on the marginal utility of each task and the degree of homogeneity. I then study a setting where the marginal utility of each task is unknown so that the optimal contract must be learned or estimated with observational data. I identify this problem as a regression problem with measurement errors and observe that this problem can be cast as an instrumental regression problem. The current works observe that both the contract and the repeated observations (when available) can act as valid instrumental variables, and propose using the generalized method of moments estimator to compute an approximately optimal contract from offline data. I also study an online setting and show how the optimal contract can be efficiently learned in an online fashion using the two estimators. Here the principal faces an exploration-exploitation tradeoff: she must experiment with new contracts and observe their outcome whilst at the same time ensuring her experimentations are not deviating too much from the optimal contract. This work shows when repeated observations are available and agents are sufficiently ``diverse", the principal can achieve a very low $\widetilde{O}(d)$ cumulative utility loss, even with a ``pure exploitation" algorithm.
- Abstract(参考訳): 本研究はマルチタスクプライマリエージェント問題を研究する。
最初に ``uniformity'' の結果を示します。
具体的には、タスクが完全置換であり、エージェントのコスト関数が一定の次数に均一であるとき、最適契約は各タスクの限界効用と等質度にのみ依存する。
次に、各タスクの限界効用が不明な環境で最適な契約を学習し、観測データで見積もる。
本稿では,この問題を測定誤差のある回帰問題とみなし,この問題を器用回帰問題とみなす。
現在の研究は、契約と繰り返し観測の両方が有効な機器変数として機能することを観察し、モーメント推定器の一般化手法を用いてオフラインデータからほぼ最適な契約を計算することを提案する。
また、オンライン設定を研究し、2つの推定器を用いて最適契約をオンライン形式で効率的に学習する方法を示します。
ここでは、プリンシパルは、探索-探索のトレードオフに直面している。彼女は、新しい契約を実験し、その結果を観察しなければならないと同時に、実験が最適契約からあまり逸脱しないことを保証する。
この研究は、繰り返し観測が可能であり、エージェントが十分に `diverse' であることを示し、プリンシパルは非常に低い$\widetilde{O}(d)$ cumulative utility loss を達成することができる。
関連論文リスト
- New Perspectives in Online Contract Design [2.296475290901356]
本研究は, オンライン学習の観点から, 繰り返し主エージェント問題について考察する。
プリンシパルの目標は、反復的な相互作用を通じて彼女の効用を最大化する最適な契約を学ぶことである。
論文 参考訳(メタデータ) (2024-03-11T20:28:23Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Measuring Model Fairness under Noisy Covariates: A Theoretical
Perspective [26.704446184314506]
本研究では,雑音情報に基づく機械学習モデルの公平性の測定問題について検討する。
本稿では, 精度の高い公平性評価が可能な弱い条件を特徴付けることを目的とした理論的解析を行う。
論文 参考訳(メタデータ) (2021-05-20T18:36:28Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Robust Meta-learning for Mixed Linear Regression with Small Batches [34.94138630547603]
大量の小データタスクは、ビッグデータタスクの欠如を補うことができるか?
既存のアプローチでは、そのようなトレードオフは効率よく達成でき、それぞれ$Omega(k1/2)$の例を持つ中規模のタスクの助けを借りることができる。
両シナリオで同時に堅牢なスペクトルアプローチを導入する。
論文 参考訳(メタデータ) (2020-06-17T07:59:05Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。