論文の概要: K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs
- arxiv url: http://arxiv.org/abs/2302.11996v3
- Date: Wed, 31 May 2023 12:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:11:53.286950
- Title: K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs
- Title(参考訳): K-SHAP:匿名状態対応ペアのためのポリシークラスタリングアルゴリズム
- Authors: Andrea Coletta, Svitlana Vyetrenko, Tucker Balch
- Abstract要約: 金融市場では、市場参加者戦略を特定するラベル付きデータは一般的にプロプライエタリである。
本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するポリシークラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning agent behaviors from observational data has shown to improve our
understanding of their decision-making processes, advancing our ability to
explain their interactions with the environment and other agents. While
multiple learning techniques have been proposed in the literature, there is one
particular setting that has not been explored yet: multi agent systems where
agent identities remain anonymous. For instance, in financial markets labeled
data that identifies market participant strategies is typically proprietary,
and only the anonymous state-action pairs that result from the interaction of
multiple market participants are publicly available. As a result, sequences of
agent actions are not observable, restricting the applicability of existing
work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP,
that learns to group anonymous state-action pairs according to the agent
policies. We frame the problem as an Imitation Learning (IL) task, and we learn
a world-policy able to mimic all the agent behaviors upon different
environmental states. We leverage the world-policy to explain each anonymous
observation through an additive feature attribution method called SHAP (SHapley
Additive exPlanations). Finally, by clustering the explanations we show that we
are able to identify different agent policies and group observations
accordingly. We evaluate our approach on simulated synthetic market data and a
real-world financial dataset. We show that our proposal significantly and
consistently outperforms the existing methods, identifying different agent
strategies.
- Abstract(参考訳): 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。
複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。
例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。
その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。
本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。
我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。
我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。
最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。
シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。
我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。
関連論文リスト
- Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Graph Exploration for Effective Multi-agent Q-Learning [46.723361065955544]
本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。
エージェントが受け取った個々の報酬は、他のエージェントのアクションとは独立していると仮定する一方で、そのポリシーは結合されている。
提案手法では,より効率的な爆発行動を実行するために,近隣のエージェントが協調して状態-作用空間の不確かさを推定する。
論文 参考訳(メタデータ) (2023-04-19T10:28:28Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Revisiting Parameter Sharing in Multi-Agent Deep Reinforcement Learning [14.017603575774361]
我々はエージェント指示の概念を定式化し、それが最適政策への収束を初めて可能にすることを証明した。
次に,パラメータ共有を異種観測空間や行動空間における学習に拡張する手法を正式に導入する。
論文 参考訳(メタデータ) (2020-05-27T20:14:28Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。