論文の概要: Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model
- arxiv url: http://arxiv.org/abs/2303.08613v2
- Date: Sun, 6 Aug 2023 19:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:39:00.629806
- Title: Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model
- Title(参考訳): 情報獲得にインセンティブを与える学習:主エージェントモデルに適合する適切なスコアリングルール
- Authors: Siyu Chen, Jibang Wu, Yifan Wu, Zhuoran Yang
- Abstract要約: インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
- 参考スコア(独自算出の注目度): 64.94131130042275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the incentivized information acquisition problem, where a principal
hires an agent to gather information on her behalf. Such a problem is modeled
as a Stackelberg game between the principal and the agent, where the principal
announces a scoring rule that specifies the payment, and then the agent then
chooses an effort level that maximizes her own profit and reports the
information. We study the online setting of such a problem from the principal's
perspective, i.e., designing the optimal scoring rule by repeatedly interacting
with the strategic agent. We design a provably sample efficient algorithm that
tailors the UCB algorithm (Auer et al., 2002) to our model, which achieves a
sublinear $T^{2/3}$-regret after $T$ iterations. Our algorithm features a
delicate estimation procedure for the optimal profit of the principal, and a
conservative correction scheme that ensures the desired agent's actions are
incentivized. Furthermore, a key feature of our regret bound is that it is
independent of the number of states of the environment.
- Abstract(参考訳): そこで本研究では,校長がエージェントを雇って情報収集を行うインセンティブ化情報取得問題について検討する。
このような問題は、プリンシパルとエージェントの間のスタックルバーグゲームとしてモデル化され、プリンシパルは支払いを規定するスコアリングルールを宣言し、次にエージェントは自身の利益を最大化し、情報を報告する努力レベルを選択する。
我々は,このような問題のオンライン設定をプリンシパルの観点から検討し,戦略エージェントと繰り返し対話することで最適なスコアリングルールを設計する。
我々は、ucbアルゴリズム(auer et al., 2002)をモデルに合わせた、実証可能なサンプル効率的なアルゴリズムを設計し、t$イテレーション後にサブリニア$t^{2/3}$-regretを達成する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
さらに、私たちの後悔の限界の重要な特徴は、それが環境の状態の数から独立していることです。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Regret Analysis of Repeated Delegated Choice [8.384985977301174]
本稿では,Kleinberg と Kleinberg のオンライン学習版である EC'18 について検討した。
問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的か実用的かを検討する。
論文 参考訳(メタデータ) (2023-10-07T17:54:36Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [37.92189925462977]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Online Learning with Costly Features in Non-stationary Environments [6.009759445555003]
シーケンシャルな意思決定の問題では、長期的な報酬を最大化することが第一の目標である。
現実世界の問題では、有益な情報を集めるのにしばしばコストがかかる。
時間内にサブ線形後悔を保証するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-07-18T16:13:35Z) - Strategic Apple Tasting [35.25249063553063]
ハイテイク領域におけるアルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。
我々は、この設定をリンゴ味のフィードバックによるオンライン学習問題として定式化する。
我々の目標は、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。
論文 参考訳(メタデータ) (2023-06-09T20:46:31Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Consequences of Misaligned AI [12.879600368339393]
本稿では,報酬関数の設計をインタラクティブでダイナミックなプロセスとみなすべきである。
セットアップを変更して、完全な状態を参照したり、プリンシパルがプロキシの目的を時間とともに更新したりすることで、より高いユーティリティソリューションを実現する方法を示します。
論文 参考訳(メタデータ) (2021-02-07T19:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。