論文の概要: Principal-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.18074v1
- Date: Thu, 25 Jul 2024 14:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:49:09.680622
- Title: Principal-Agent Reinforcement Learning
- Title(参考訳): 主エージェント強化学習
- Authors: Dima Ivanov, Paul Dütting, Inbal Talgam-Cohen, Tonghan Wang, David C. Parkes,
- Abstract要約: 契約は、プリンシパルがエージェントにタスクを委譲することを可能にする経済的な枠組みである。
多くの近代的な強化学習環境において、自己関心のあるエージェントは、プリンシパルによって委譲された多段階的なタスクを実行することを学習する。
そこで本研究では,プリンシパルが使用する契約を学習し,エージェントがMDPポリシーを学習する,プリンシパルとエージェントのゲームについて検討する。
- 参考スコア(独自算出の注目度): 20.8288955218712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contracts are the economic framework which allows a principal to delegate a task to an agent -- despite misaligned interests, and even without directly observing the agent's actions. In many modern reinforcement learning settings, self-interested agents learn to perform a multi-stage task delegated to them by a principal. We explore the significant potential of utilizing contracts to incentivize the agents. We model the delegated task as an MDP, and study a stochastic game between the principal and agent where the principal learns what contracts to use, and the agent learns an MDP policy in response. We present a learning-based algorithm for optimizing the principal's contracts, which provably converges to the subgame-perfect equilibrium of the principal-agent game. A deep RL implementation allows us to apply our method to very large MDPs with unknown transition dynamics. We extend our approach to multiple agents, and demonstrate its relevance to resolving a canonical sequential social dilemma with minimal intervention to agent rewards.
- Abstract(参考訳): 契約は、代理人の行動を直接観察することなく、不一致の利益にもかかわらず、首長がエージェントにタスクを委譲することを可能にする経済的な枠組みである。
多くの近代的な強化学習環境において、自己関心のあるエージェントは、プリンシパルによって委譲された多段階的なタスクを実行することを学習する。
我々は、契約を利用してエージェントにインセンティブを与える大きな可能性を探求する。
我々は、委任されたタスクをMDPとしてモデル化し、プリンシパルとエージェントの間の確率ゲームにおいて、プリンシパルが使用するコントラクトを学習し、エージェントが応答してMDPポリシーを学習する。
本稿では,プリンシパル・エージェント・ゲームのサブゲーム完全均衡に確実に収束する,プリンシパルの契約を最適化するための学習に基づくアルゴリズムを提案する。
より深いRL実装により、未知の遷移ダイナミクスを持つ非常に大きなMDPにメソッドを適用することができる。
我々は、複数のエージェントへのアプローチを拡張し、エージェント報酬に対する最小の介入で、正統的な社会的ジレンマを解決することとの関連性を実証する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Artificial Intelligence and Dual Contract [2.1756081703276]
独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話するモデルを開発する。
その結果、AIプリンシパルの戦略的行動は、利益の整合性に決定的に左右されることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:31:44Z) - Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.098826226730246]
ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。
従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。
また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T12:46:54Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。