論文の概要: Incentivized Learning in Principal-Agent Bandit Games
- arxiv url: http://arxiv.org/abs/2403.03811v1
- Date: Wed, 6 Mar 2024 16:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:37:23.174693
- Title: Incentivized Learning in Principal-Agent Bandit Games
- Title(参考訳): バンディットゲームにおけるインセンティブ学習
- Authors: Antoine Scheid, Daniil Tiapkin, Etienne Boursier, Aymeric Capitaine,
El Mahdi El Mhamdi, Eric Moulines, Michael I. Jordan, Alain Durmus
- Abstract要約: この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 62.41639598376539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work considers a repeated principal-agent bandit game, where the
principal can only interact with her environment through the agent. The
principal and the agent have misaligned objectives and the choice of action is
only left to the agent. However, the principal can influence the agent's
decisions by offering incentives which add up to his rewards. The principal
aims to iteratively learn an incentive policy to maximize her own total
utility. This framework extends usual bandit problems and is motivated by
several practical applications, such as healthcare or ecological taxation,
where traditionally used mechanism design theories often overlook the learning
aspect of the problem. We present nearly optimal (with respect to a horizon
$T$) learning algorithms for the principal's regret in both multi-armed and
linear contextual settings. Finally, we support our theoretical guarantees
through numerical experiments.
- Abstract(参考訳): この作品では、プリンシパルがエージェントを通して彼女の環境とのみやりとりできる、反復的なプリンシパルエージェント・バンディットゲームを考える。
プリンシパルとエージェントはミスアライメント目的を持ち、アクションの選択はエージェントにのみ委ねられる。
しかし、校長は報酬を補うインセンティブを提供することでエージェントの決定に影響を与えることができる。
校長は、自身のトータルユーティリティを最大化するために、インセンティブポリシーを反復的に学習することを目指している。
この枠組みは通常のバンディット問題を拡張し、伝統的なメカニズム設計理論が問題の学習の側面を見落としている医療や生態税など、いくつかの実用的な応用によって動機づけられている。
我々は,マルチアームとリニアコンテクスト設定の両方において,校長の後悔に対してほぼ最適(ホライズン$t$)の学習アルゴリズムを提案する。
最後に,数値実験を通じて理論的保証を支持する。
関連論文リスト
- Exploration and Persuasion [58.87314871998078]
我々は、自己関心のあるエージェントが利用したいときの探索にインセンティブを与える方法を示す。
不確実性の下で決定を下す利己的なエージェントの集団を考える。
彼らは新しい情報を取得し、良い決定を下すためにこの情報を「発見」する。
これは、探査が費用がかかるためであるが、将来多くのエージェントにその利点が広がるためである。
論文 参考訳(メタデータ) (2024-10-22T15:13:13Z) - Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。
本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。
この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文 参考訳(メタデータ) (2023-12-30T18:30:44Z) - Regret Analysis of Repeated Delegated Choice [8.384985977301174]
本稿では,Kleinberg と Kleinberg のオンライン学習版である EC'18 について検討した。
問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的か実用的かを検討する。
論文 参考訳(メタデータ) (2023-10-07T17:54:36Z) - Learning Optimal Contracts: How to Exploit Small Action Spaces [37.92189925462977]
本稿では、主目的が結果依存の支払い方式にコミットする主目的問題について検討する。
約最適契約を高い確率で学習するアルゴリズムを設計する。
また、関連するオンライン学習環境において、$tildemathcalO(T4/5)$ regret を提供するためにも使用できる。
論文 参考訳(メタデータ) (2023-09-18T14:18:35Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Repeated Principal-Agent Games with Unobserved Agent Rewards and
Perfect-Knowledge Agents [5.773269033551628]
マルチアーム・バンディット(MAB)フレームワークにおいて,繰り返しプリンシパルエージェントゲームを行うシナリオについて検討する。
我々はまず,各バンドバンドアームに対するエージェントの期待報酬に対する推定器を構築することで,ポリシーを設計する。
我々は,協調輸送計画から実生活環境への政策の適用性を示す数値シミュレーションで結論付けた。
論文 参考訳(メタデータ) (2023-04-14T21:57:16Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。