論文の概要: Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model
- arxiv url: http://arxiv.org/abs/2303.08613v1
- Date: Wed, 15 Mar 2023 13:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:42:36.030001
- Title: Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model
- Title(参考訳): 情報獲得にインセンティブを与える学習:主エージェントモデルに適合する適切なスコアリングルール
- Authors: Siyu Chen, Jibang Wu, Yifan Wu, Zhuoran Yang
- Abstract要約: インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
- 参考スコア(独自算出の注目度): 64.94131130042275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the incentivized information acquisition problem, where a principal
hires an agent to gather information on her behalf. Such a problem is modeled
as a Stackelberg game between the principal and the agent, where the principal
announces a scoring rule that specifies the payment, and then the agent then
chooses an effort level that maximizes her own profit and reports the
information. We study the online setting of such a problem from the principal's
perspective, i.e., designing the optimal scoring rule by repeatedly interacting
with the strategic agent. We design a provably sample efficient algorithm that
tailors the UCB algorithm (Auer et al., 2002) to our model, which achieves a
sublinear $T^{2/3}$-regret after $T$ iterations. Our algorithm features a
delicate estimation procedure for the optimal profit of the principal, and a
conservative correction scheme that ensures the desired agent's actions are
incentivized. Furthermore, a key feature of our regret bound is that it is
independent of the number of states of the environment.
- Abstract(参考訳): そこで本研究では,校長がエージェントを雇って情報収集を行うインセンティブ化情報取得問題について検討する。
このような問題は、プリンシパルとエージェントの間のスタックルバーグゲームとしてモデル化され、プリンシパルは支払いを規定するスコアリングルールを宣言し、次にエージェントは自身の利益を最大化し、情報を報告する努力レベルを選択する。
我々は,このような問題のオンライン設定をプリンシパルの観点から検討し,戦略エージェントと繰り返し対話することで最適なスコアリングルールを設計する。
我々は、ucbアルゴリズム(auer et al., 2002)をモデルに合わせた、実証可能なサンプル効率的なアルゴリズムを設計し、t$イテレーション後にサブリニア$t^{2/3}$-regretを達成する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
さらに、私たちの後悔の限界の重要な特徴は、それが環境の状態の数から独立していることです。
関連論文リスト
- Towards a more efficient computation of individual attribute and policy
contribution for post-hoc explanation of cooperative multi-agent systems
using Myerson values [0.0]
チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。
マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。
提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
論文 参考訳(メタデータ) (2022-12-06T15:15:00Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Learning in Stackelberg Games with Non-myopic Agents [14.727571071020446]
主成分が長寿命の非ミオピックエージェントと繰り返し相互作用するスタックルバーグゲームについて検討する。
Stackelbergゲームでの学習は、エージェントがミオピックであるときによく理解されているが、非ミオピックエージェントはさらなる合併症を引き起こす。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - A new perspective on classification: optimally allocating limited
resources to uncertain tasks [4.169130102668252]
例えば、クレジットカード詐欺検出では、銀行は詐欺捜査チームに少数の取引しか割り当てることができない。
我々は、タスクの不確実性に対処するために分類を使うことは、利用可能な能力を考慮していないため、本質的には最適ではないと論じる。
本稿では,限られた能力しか持たない課題の期待利益を直接最適化することで,ランク付けのための学習を用いた新しいソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-09T10:14:45Z) - Optimal Market Making by Reinforcement Learning [0.0]
古典的量的金融市場形成問題に強化学習アルゴリズムを適用する。
Deep Q-Learningアルゴリズムは最適なエージェントを復元する。
論文 参考訳(メタデータ) (2021-04-08T20:13:21Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Consequences of Misaligned AI [12.879600368339393]
本稿では,報酬関数の設計をインタラクティブでダイナミックなプロセスとみなすべきである。
セットアップを変更して、完全な状態を参照したり、プリンシパルがプロキシの目的を時間とともに更新したりすることで、より高いユーティリティソリューションを実現する方法を示します。
論文 参考訳(メタデータ) (2021-02-07T19:34:04Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。