Fugu-MT 論文翻訳(概要): K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs

論文の概要: K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs

arxiv url: http://arxiv.org/abs/2302.11996v3
Date: Wed, 31 May 2023 12:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 03:11:53.286950
Title: K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs
Title（参考訳）: K-SHAP:匿名状態対応ペアのためのポリシークラスタリングアルゴリズム
Authors: Andrea Coletta, Svitlana Vyetrenko, Tucker Balch
Abstract要約: 金融市場では、市場参加者戦略を特定するラベル付きデータは一般的にプロプライエタリである。本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するポリシークラスタリングアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 1.2891210250935146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.
Abstract（参考訳）: 観察データからエージェントの行動を学ぶことで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上した。複数の学習手法が文献で提案されているが、まだ研究されていない特定の設定が一つある: エージェントのアイデンティティが匿名のままであるマルチエージェントシステム。例えば、市場参加者戦略を特定するラベル付きデータは通常、プロプライエタリであり、複数の市場参加者のインタラクションから生じる匿名のステートアクションペアのみが公開されています。その結果、エージェントアクションのシーケンスは観測不能となり、既存の作業の適用性が制限される。本稿では、エージェントポリシーに従って匿名状態-アクションペアをグループ化するK-SHAPと呼ばれるポリシークラスタリングアルゴリズムを提案する。我々は、問題を模倣学習(il)タスクとして捉え、異なる環境状態における全てのエージェントの振る舞いを模倣できる世界政治を学ぶ。我々は,shap(shapley additive descriptions)と呼ばれる付加的特徴帰属法を用いて,各匿名観察を説明するために,世界政治を利用する。最後に,これらの説明をクラスタリングすることで,異なるエージェントポリシーやグループ観察を識別できることを示す。シミュレーションされた市場データと実世界の金融データセットに対するアプローチを評価した。我々は,提案手法が既存の手法を著しくかつ一貫して上回り,異なるエージェント戦略を特定していることを示す。

関連論文リスト

Enhancing Cooperative Multi-Agent Reinforcement Learning with State Modelling and Adversarial Exploration [9.80657085835352]
分散部分観測環境における協調学習はマルチエージェント深部強化学習(MARL)に重大な課題をもたらす本稿では,個々のエージェント観測から状態表現を推定することに着目し,この領域における重要な懸念に対処する。本稿では,非可観測状態の有意義な信念表現をエージェントが推論する,協調的MARLのための新しい状態モデリングフレームワークを提案する。 SMPEは,MPE,LBF,RWAREベンチマークの複雑な完全協調タスクにおいて,最先端のMARLアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-08T14:07:20Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
Offline Multi-Agent Reinforcement Learning via In-Sample Sequential Policy Optimization [8.877649895977479]
オフラインマルチエージェント強化学習(英語: offline Multi-Agent Reinforcement Learning, MARL)は、事前コンパイルされたデータセットから最適なマルチエージェントポリシーを学ぶことを目的とした新興分野である。本研究では、既存のオフラインMARLメソッドを再検討し、特定のシナリオにおいて問題となる可能性があることを示す。 In-Sample Sequential Policy Optimization (InSPO) と呼ばれる新しいオフラインMARLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-10T16:19:08Z)
Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文参考訳（メタデータ） (2024-08-19T13:47:17Z)
Deep Multi-Agent Reinforcement Learning for Decentralized Active Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文参考訳（メタデータ） (2023-09-14T01:18:04Z)
SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。 SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文参考訳（メタデータ） (2023-07-05T23:36:33Z)
Graph Exploration for Effective Multi-agent Q-Learning [46.723361065955544]
本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。エージェントが受け取った個々の報酬は、他のエージェントのアクションとは独立していると仮定する一方で、そのポリシーは結合されている。提案手法では,より効率的な爆発行動を実行するために,近隣のエージェントが協調して状態-作用空間の不確かさを推定する。
論文参考訳（メタデータ） (2023-04-19T10:28:28Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文参考訳（メタデータ） (2021-10-31T09:08:46Z)
Revisiting Parameter Sharing in Multi-Agent Deep Reinforcement Learning [14.017603575774361]
我々はエージェント指示の概念を定式化し、それが最適政策への収束を初めて可能にすることを証明した。次に,パラメータ共有を異種観測空間や行動空間における学習に拡張する手法を正式に導入する。
論文参考訳（メタデータ） (2020-05-27T20:14:28Z)
Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文参考訳（メタデータ） (2020-04-19T15:42:55Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。