論文の概要: Towards a more efficient computation of individual attribute and policy
contribution for post-hoc explanation of cooperative multi-agent systems
using Myerson values
- arxiv url: http://arxiv.org/abs/2212.03041v1
- Date: Tue, 6 Dec 2022 15:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:15:01.812830
- Title: Towards a more efficient computation of individual attribute and policy
contribution for post-hoc explanation of cooperative multi-agent systems
using Myerson values
- Title(参考訳): Myerson値を用いた協調型マルチエージェントシステムのポストホックな説明のための個人属性のより効率的な計算と政策貢献に向けて
- Authors: Giorgio Angelotti and Natalia D\'iaz-Rodr\'iguez
- Abstract要約: チームにおけるエージェントのグローバルな重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって、金と同じくらいの価値がある。
マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。
提案手法を,Deep Reinforcement Learningを通じて得られたハードコードされたポリシーとポリシーの両方をデプロイする実例実証環境で検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A quantitative assessment of the global importance of an agent in a team is
as valuable as gold for strategists, decision-makers, and sports coaches. Yet,
retrieving this information is not trivial since in a cooperative task it is
hard to isolate the performance of an individual from the one of the whole
team. Moreover, it is not always clear the relationship between the role of an
agent and his personal attributes. In this work we conceive an application of
the Shapley analysis for studying the contribution of both agent policies and
attributes, putting them on equal footing. Since the computational complexity
is NP-hard and scales exponentially with the number of participants in a
transferable utility coalitional game, we resort to exploiting a-priori
knowledge about the rules of the game to constrain the relations between the
participants over a graph. We hence propose a method to determine a
Hierarchical Knowledge Graph of agents' policies and features in a Multi-Agent
System. Assuming a simulator of the system is available, the graph structure
allows to exploit dynamic programming to assess the importances in a much
faster way. We test the proposed approach in a proof-of-case environment
deploying both hardcoded policies and policies obtained via Deep Reinforcement
Learning. The proposed paradigm is less computationally demanding than
trivially computing the Shapley values and provides great insight not only into
the importance of an agent in a team but also into the attributes needed to
deploy the policy at its best.
- Abstract(参考訳): チームにおけるエージェントの世界的な重要性の定量的評価は、ストラテジスト、意思決定者、スポーツコーチにとって金と同じくらい価値がある。
しかし、協調的なタスクでは、個人のパフォーマンスをチーム全体の1つから分離するのは難しいため、この情報を取得するのは簡単ではありません。
また,エージェントの役割と個人的属性との関係は必ずしも明確ではない。
本研究は、エージェントポリシーと属性の両方の寄与を研究するために、Shapley解析の応用を考え、それらを等しく基礎づける。
計算複雑性はnpハードであり、転送可能な多目的連立ゲームにおける参加者数に指数関数的にスケールするため、ゲームルールに関するaプライオリ知識を活用し、グラフ上の参加者間の関係を制約する。
そこで我々は,マルチエージェントシステムにおけるエージェントのポリシーと特徴の階層的知識グラフを決定する手法を提案する。
システムのシミュレータが利用可能だと仮定すると、グラフ構造は動的プログラミングを利用してより高速に重要度を評価することができる。
提案手法を,Deep Reinforcement Learningを通じて得られたハードコードポリシとポリシーの両方をデプロイする実例実証環境で検証する。
提案されたパラダイムは、shapleyの値を自明に計算するよりも計算の要求が少なく、チーム内のエージェントの重要性だけでなく、ポリシーを最大限に展開するために必要な属性にも大きな洞察を与えてくれます。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Influence-based Reinforcement Learning for Intrinsically-motivated
Agents [0.0]
2つの強化学習エージェントのアルゴリズム的枠組みをそれぞれ異なる目的で提示する。
我々は,ある政策が他者に与える影響を評価するために,新たな関数近似手法を導入する。
本手法は,オープンAI体育館における課題と,協調的・混合的なシナリオについて検討した。
論文 参考訳(メタデータ) (2021-08-28T05:36:10Z) - Stateful Strategic Regression [20.7177095411398]
結果のゲームにおけるスタックルバーグ均衡を記述し、計算のための新しいアルゴリズムを提供する。
分析の結果,ゲームの結果を形作る上でのマルチインタラクションの役割について,いくつかの興味深い知見が得られた。
最も重要なことは、処理時に複数ラウンドの相互作用を行うことで、主成分は、目的の方向に努力を蓄積するために、エージェントにインセンティブを与えるのにより効果的であることを示すことである。
論文 参考訳(メタデータ) (2021-06-07T17:46:29Z) - Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State [35.69801203107371]
任意の環境で動作可能な簡易強化学習エージェントを設計する。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
環境状態の数や、他の政策や歴史統計に関連付けられた混合時間に、これ以上依存することはない。
論文 参考訳(メタデータ) (2021-02-10T04:53:12Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。