論文の概要: Shapley Machine: A Game-Theoretic Framework for N-Agent Ad Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2506.11285v1
- Date: Thu, 12 Jun 2025 20:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.5782
- Title: Shapley Machine: A Game-Theoretic Framework for N-Agent Ad Hoc Teamwork
- Title(参考訳): Shapley Machine: N-Agent Ad Hocチームワークのためのゲーム理論フレームワーク
- Authors: Jianhong Wang, Yang Li, Samuel Kaski, Jonathan Lawry,
- Abstract要約: 我々は、NAHT(n-agent ad hoc teamwork)と呼ばれるオープンマルチエージェントシステムにおける最近提案された問題について検討することを目指している。
既存の手法は設計に基づいており、したがって理論的な厳密さとエージェント間のあいまいな信用割り当てが欠如している。
これらの制約に対処するため、協調ゲーム理論のレンズを用いてNAHTをモデル化し、解決する。
- 参考スコア(独自算出の注目度): 25.31548780542065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open multi-agent systems are increasingly important in modeling real-world applications, such as smart grids, swarm robotics, etc. In this paper, we aim to investigate a recently proposed problem for open multi-agent systems, referred to as n-agent ad hoc teamwork (NAHT), where only a number of agents are controlled. Existing methods tend to be based on heuristic design and consequently lack theoretical rigor and ambiguous credit assignment among agents. To address these limitations, we model and solve NAHT through the lens of cooperative game theory. More specifically, we first model an open multi-agent system, characterized by its value, as an instance situated in a space of cooperative games, generated by a set of basis games. We then extend this space, along with the state space, to accommodate dynamic scenarios, thereby characterizing NAHT. Exploiting the justifiable assumption that basis game values correspond to a sequence of n-step returns with different horizons, we represent the state values for NAHT in a form similar to $\lambda$-returns. Furthermore, we derive Shapley values to allocate state values to the controlled agents, as credits for their contributions to the ad hoc team. Different from the conventional approach to shaping Shapley values in an explicit form, we shape Shapley values by fulfilling the three axioms uniquely describing them, well defined on the extended game space describing NAHT. To estimate Shapley values in dynamic scenarios, we propose a TD($\lambda$)-like algorithm. The resulting reinforcement learning (RL) algorithm is referred to as Shapley Machine. To our best knowledge, this is the first time that the concepts from cooperative game theory are directly related to RL concepts. In experiments, we demonstrate the effectiveness of Shapley Machine and verify reasonableness of our theory.
- Abstract(参考訳): オープンなマルチエージェントシステムは、スマートグリッドやSwarm Roboticsなど、現実世界のアプリケーションのモデリングにおいてますます重要になっている。
本稿では,最近提案されたオープンマルチエージェントシステム(NAHT)の課題について検討する。
既存の手法はヒューリスティックな設計に基づいており、従って理論的な厳密さとエージェント間のあいまいな信用割り当てが欠如している。
これらの制約に対処するため、協調ゲーム理論のレンズを用いてNAHTをモデル化し、解決する。
より具体的には、まずオープンなマルチエージェントシステムをモデル化し、その価値を、一連のベースゲームによって生成される協調ゲームの空間内のインスタンスとして特徴付ける。
次に、この空間を状態空間とともに拡張し、動的シナリオに対応させ、NAHTを特徴付ける。
基底ゲーム値が異なる水平線を持つn-ステップの列に対応するという正当化可能な仮定を展開し、NAHTの状態値を$\lambda$-returnsのような形で表現する。
さらに、私たちはShapley値を、アドホックチームへのコントリビューションのクレジットとして、コントロールされたエージェントに状態値を割り当てるように導き出します。
明示的な形でシェープリー値を形成する従来のアプローチとは異なり、NAHTを記述する拡張ゲーム空間上でよく定義された3つの公理を満たすことで、シェープリー値を形成する。
動的シナリオにおけるShapley値を推定するために,TD($\lambda$)のようなアルゴリズムを提案する。
結果として得られる強化学習(RL)アルゴリズムはShapley Machineと呼ばれる。
我々の知る限りでは、協調ゲーム理論の概念がRL概念に直接関係するのはこれが初めてである。
実験では,Shapley Machineの有効性を実証し,理論の妥当性を検証する。
関連論文リスト
- Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method
and Its Application to Energy Network [7.50196317304035]
本論は,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基礎を考察する。
まず,コラボレーティブゲーム理論において,コンベックスゲーム(convex game)と呼ばれるゲームモデルと,Shapley値と呼ばれるペイオフ分配スキームを拡張した。
Markov Shapley値に基づいて,SHAQ,SQDDPG,SPOという3つのマルチエージェント強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T13:43:15Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - On the Convergence of the Shapley Value in Parametric Bayesian Learning
Games [28.212413634171572]
いずれのプレイヤーにおいても、シャプリー値の差は、特徴関数が結合フィッシャー情報の対数行列に比例する制限ゲームにおけるシャプリー値の差に収束することを示す。
この結果から,KL 分岐のコストのかかる計算を行なわずに実現可能となった。
論文 参考訳(メタデータ) (2022-05-16T02:29:14Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。