論文の概要: Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts
- arxiv url: http://arxiv.org/abs/2407.18074v2
- Date: Mon, 7 Oct 2024 16:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:01:09.584886
- Title: Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts
- Title(参考訳): 主要エージェント強化学習:契約付きAIエージェントのオーケストレーション
- Authors: Dima Ivanov, Paul Dütting, Inbal Talgam-Cohen, Tonghan Wang, David C. Parkes,
- Abstract要約: 本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
- 参考スコア(独自算出の注目度): 20.8288955218712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing deployment of AI is shaping the future landscape of the internet, which is set to become an integrated ecosystem of AI agents. Orchestrating the interaction among AI agents necessitates decentralized, self-sustaining mechanisms that harmonize the tension between individual interests and social welfare. In this paper we tackle this challenge by synergizing reinforcement learning with principal-agent theory from economics. Taken separately, the former allows unrealistic freedom of intervention, while the latter struggles to scale in sequential settings. Combining them achieves the best of both worlds. We propose a framework where a principal guides an agent in a Markov Decision Process (MDP) using a series of contracts, which specify payments by the principal based on observable outcomes of the agent's actions. We present and analyze a meta-algorithm that iteratively optimizes the policies of the principal and agent, showing its equivalence to a contraction operator on the principal's Q-function, and its convergence to subgame-perfect equilibrium. We then scale our algorithm with deep Q-learning and analyze its convergence in the presence of approximation error, both theoretically and through experiments with randomly generated binary game-trees. Extending our framework to multiple agents, we apply our methodology to the combinatorial Coin Game. Addressing this multi-agent sequential social dilemma is a promising first step toward scaling our approach to more complex, real-world instances.
- Abstract(参考訳): AIの展開の増加は、AIエージェントの統合エコシステムとなるインターネットの将来の展望を形作っている。
AIエージェント間のインタラクションをオーケストレーションするには、個人の利益と社会福祉の間の緊張を調和させる、分散的で自己持続的なメカニズムが必要である。
本稿では,強化学習と主エージェント理論を経済学から融合させることにより,この課題に対処する。
前者は非現実的な介入の自由を認め、後者はシーケンシャルな設定でスケールするのに苦労する。
これらを組み合わせることで、両方の世界のベストを達成できます。
本稿では,主体が一連の契約を用いてマルコフ決定プロセス(MDP)のエージェントを誘導する枠組みを提案する。
本稿では、主役とエージェントのポリシーを反復的に最適化し、主役のQ-関数上の収縮演算子と等価性を示し、サブゲーム完全均衡への収束を示すメタアルゴリズムを提示、分析する。
次に,本アルゴリズムを深部Q-ラーニングで拡張し,理論上もランダムに生成されたバイナリゲームツリーを用いた実験を通じて近似誤差の存在下での収束度を解析する。
フレームワークを複数のエージェントに拡張し,組み合わせ型コインゲームに適用する。
このマルチエージェントなシーケンシャルなソーシャルジレンマに対処することは、より複雑な実世界のインスタンスにアプローチを拡大するための、有望な第一歩です。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Artificial Intelligence and Dual Contract [2.1756081703276]
独立したQ-ラーニングアルゴリズムを備えた2つのプリンシパルが1つのエージェントと対話するモデルを開発する。
その結果、AIプリンシパルの戦略的行動は、利益の整合性に決定的に左右されることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:31:44Z) - Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.098826226730246]
ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。
従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。
また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T12:46:54Z) - Decentralized Cooperative Multi-Agent Reinforcement Learning with
Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。
本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。
エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2021-10-12T02:45:12Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。