論文の概要: Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing
- arxiv url: http://arxiv.org/abs/2309.08477v1
- Date: Thu, 14 Sep 2023 01:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:01:11.061524
- Title: Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing
- Title(参考訳): 分散能動仮説テストのための深層マルチエージェント強化学習
- Authors: Hadar Szostak and Kobi Cohen
- Abstract要約: 我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
- 参考スコア(独自算出の注目度): 11.639503711252663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a decentralized formulation of the active hypothesis testing
(AHT) problem, where multiple agents gather noisy observations from the
environment with the purpose of identifying the correct hypothesis. At each
time step, agents have the option to select a sampling action. These different
actions result in observations drawn from various distributions, each
associated with a specific hypothesis. The agents collaborate to accomplish the
task, where message exchanges between agents are allowed over a rate-limited
communications channel. The objective is to devise a multi-agent policy that
minimizes the Bayes risk. This risk comprises both the cost of sampling and the
joint terminal cost incurred by the agents upon making a hypothesis
declaration. Deriving optimal structured policies for AHT problems is generally
mathematically intractable, even in the context of a single agent. As a result,
recent efforts have turned to deep learning methodologies to address these
problems, which have exhibited significant success in single-agent learning
scenarios. In this paper, we tackle the multi-agent AHT formulation by
introducing a novel algorithm rooted in the framework of deep multi-agent
reinforcement learning. This algorithm, named Multi-Agent Reinforcement
Learning for AHT (MARLA), operates at each time step by having each agent map
its state to an action (sampling rule or stopping rule) using a trained deep
neural network with the goal of minimizing the Bayes risk. We present a
comprehensive set of experimental results that effectively showcase the agents'
ability to learn collaborative strategies and enhance performance using MARLA.
Furthermore, we demonstrate the superiority of MARLA over single-agent learning
approaches. Finally, we provide an open-source implementation of the MARLA
framework, for the benefit of researchers and developers in related domains.
- Abstract(参考訳): 複数のエージェントが正しい仮説を識別するために環境からノイズの多い観測を収集する、アクティブ仮説テスト(AHT)問題の分散的な定式化を考える。
ステップ毎に、エージェントはサンプリングアクションを選択するオプションを持つ。
これらの異なる作用は、それぞれが特定の仮説と関連づけられた様々な分布から得られる観察結果をもたらす。
エージェントは協調してタスクを遂行し、エージェント間のメッセージ交換はレート制限された通信チャネル上で許可される。
目的はベイズリスクを最小限に抑えるマルチエージェント政策を考案することである。
このリスクは、仮説宣言を行う際に、サンプリングコストとエージェントによって引き起こされる共同端末コストの両方を含む。
AHT問題に対する最適構造ポリシーの導出は、一般に1つのエージェントの文脈においてさえ、数学的に難解である。
その結果、近年の深層学習手法はこれらの問題に対処し、単一エージェントの学習シナリオにおいて大きな成功を収めている。
本稿では,深層マルチエージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェントAHTの定式化に取り組む。
このアルゴリズムはマルチエージェント強化学習 for aht (marla) と呼ばれ、ベイズリスクを最小化するために訓練されたディープニューラルネットワークを使用して、各エージェントにその状態をアクション(サンプリングルールまたは停止ルール)にマッピングさせることで、各時間ステップで動作します。
我々は,MARLAを用いて協調戦略を学習し,性能を向上させるエージェントの能力を示す総合的な実験結果を示す。
さらに,単一エージェント学習アプローチよりもmarlaが優れていることを示す。
最後に、MARLAフレームワークのオープンソース実装を提供し、関連する分野の研究者や開発者の利益を得る。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Cooperative Reward Shaping for Multi-Agent Pathfinding [4.244426154524592]
MAPF(Multi-Agent Pathfinding)の主な目的は、全てのエージェントに対して効率的で競合のないパスを計画することである。
従来のマルチエージェントパス計画アルゴリズムは、複数のエージェントに対して効率的な分散パス計画を実現するのに苦労する。
独立Q-Learning(IQL)に基づく独自の報酬形成手法を紹介する。
論文 参考訳(メタデータ) (2024-07-15T02:44:41Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Graph Exploration for Effective Multi-agent Q-Learning [46.723361065955544]
本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。
エージェントが受け取った個々の報酬は、他のエージェントのアクションとは独立していると仮定する一方で、そのポリシーは結合されている。
提案手法では,より効率的な爆発行動を実行するために,近隣のエージェントが協調して状態-作用空間の不確かさを推定する。
論文 参考訳(メタデータ) (2023-04-19T10:28:28Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting
Pot [71.28884625011987]
Melting PotはMARL評価スイートで、強化学習を使用して、新しいテストシナリオを作成するのに必要な人的労力を削減する。
幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。
これらのテストシナリオを標準的なMARLトレーニングアルゴリズムに適用し、Melting Potがトレーニングのパフォーマンスだけでは明らかでない弱点をいかに明らかにするかを実証する。
論文 参考訳(メタデータ) (2021-07-14T17:22:14Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。