論文の概要: Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model
- arxiv url: http://arxiv.org/abs/2303.08613v2
- Date: Sun, 6 Aug 2023 19:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:39:00.629806
- Title: Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model
- Title(参考訳): 情報獲得にインセンティブを与える学習:主エージェントモデルに適合する適切なスコアリングルール
- Authors: Siyu Chen, Jibang Wu, Yifan Wu, Zhuoran Yang
- Abstract要約: インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
- 参考スコア(独自算出の注目度): 64.94131130042275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the incentivized information acquisition problem, where a principal
hires an agent to gather information on her behalf. Such a problem is modeled
as a Stackelberg game between the principal and the agent, where the principal
announces a scoring rule that specifies the payment, and then the agent then
chooses an effort level that maximizes her own profit and reports the
information. We study the online setting of such a problem from the principal's
perspective, i.e., designing the optimal scoring rule by repeatedly interacting
with the strategic agent. We design a provably sample efficient algorithm that
tailors the UCB algorithm (Auer et al., 2002) to our model, which achieves a
sublinear $T^{2/3}$-regret after $T$ iterations. Our algorithm features a
delicate estimation procedure for the optimal profit of the principal, and a
conservative correction scheme that ensures the desired agent's actions are
incentivized. Furthermore, a key feature of our regret bound is that it is
independent of the number of states of the environment.
- Abstract(参考訳): そこで本研究では,校長がエージェントを雇って情報収集を行うインセンティブ化情報取得問題について検討する。
このような問題は、プリンシパルとエージェントの間のスタックルバーグゲームとしてモデル化され、プリンシパルは支払いを規定するスコアリングルールを宣言し、次にエージェントは自身の利益を最大化し、情報を報告する努力レベルを選択する。
我々は,このような問題のオンライン設定をプリンシパルの観点から検討し,戦略エージェントと繰り返し対話することで最適なスコアリングルールを設計する。
我々は、ucbアルゴリズム(auer et al., 2002)をモデルに合わせた、実証可能なサンプル効率的なアルゴリズムを設計し、t$イテレーション後にサブリニア$t^{2/3}$-regretを達成する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
さらに、私たちの後悔の限界の重要な特徴は、それが環境の状態の数から独立していることです。
関連論文リスト
- Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Persuading a Learning Agent [7.378697321839991]
本研究では,主役がコミットメント能力を持っておらず,エージェントがアルゴリズムを用いて主役の信号に応答することを繰り返すベイズ的説得問題について検討する。
エージェントが文脈非回帰学習アルゴリズムを使用する場合、主元は、約束付き古典的非学習モデルにおいて、主元が最適に有効に近いユーティリティを保証できることを示す。
論文 参考訳(メタデータ) (2024-02-15T05:30:47Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [41.42695064501541]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Strategic Apple Tasting [35.25249063553063]
ハイテイク領域におけるアルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。
我々は、この設定をリンゴ味のフィードバックによるオンライン学習問題として定式化する。
我々の目標は、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。
論文 参考訳(メタデータ) (2023-06-09T20:46:31Z) - Sequential Principal-Agent Problems with Communication: Efficient
Computation and Learning [27.50523143132825]
両端に不完全な情報を持つ主要因とエージェント間の逐次的意思決定問題について検討する。
このモデルでは、プリンシパルとエージェントは環境の中で相互作用し、それぞれが他で利用できない状態についての観測にプライベートである。
本稿では,アルゴリズムのアルゴリズムを用いて,主成分の最適ポリシを加法近似まで計算する。
論文 参考訳(メタデータ) (2023-06-06T16:20:44Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Consequences of Misaligned AI [12.879600368339393]
本稿では,報酬関数の設計をインタラクティブでダイナミックなプロセスとみなすべきである。
セットアップを変更して、完全な状態を参照したり、プリンシパルがプロキシの目的を時間とともに更新したりすることで、より高いユーティリティソリューションを実現する方法を示します。
論文 参考訳(メタデータ) (2021-02-07T19:34:04Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。