論文の概要: Multi-agent active perception with prediction rewards
- arxiv url: http://arxiv.org/abs/2010.11835v1
- Date: Thu, 22 Oct 2020 16:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:06:13.389063
- Title: Multi-agent active perception with prediction rewards
- Title(参考訳): 予測報酬を伴うマルチエージェント能動的知覚
- Authors: Mikko Lauri and Frans A. Oliehoek
- Abstract要約: マルチエージェントアクティブな知覚は、エージェントのチームが協調して観測を集め、隠れた変数の合同推定を計算するタスクである。
我々は,マルチエージェントの能動知覚を,凸集中型予測報酬を用いた部分観測可能なマルコフ決定プロセス(Dec-POMDP)としてモデル化する。
この結果から,任意のDec-POMDP解法をマルチエージェント能動認識問題に適用し,共同推定の明示的な計算を行なわずに不確実性を抑えることが可能となった。
- 参考スコア(独自算出の注目度): 18.780904566592852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent active perception is a task where a team of agents cooperatively
gathers observations to compute a joint estimate of a hidden variable. The task
is decentralized and the joint estimate can only be computed after the task
ends by fusing observations of all agents. The objective is to maximize the
accuracy of the estimate. The accuracy is quantified by a centralized
prediction reward determined by a centralized decision-maker who perceives the
observations gathered by all agents after the task ends. In this paper, we
model multi-agent active perception as a decentralized partially observable
Markov decision process (Dec-POMDP) with a convex centralized prediction
reward. We prove that by introducing individual prediction actions for each
agent, the problem is converted into a standard Dec-POMDP with a decentralized
prediction reward. The loss due to decentralization is bounded, and we give a
sufficient condition for when it is zero. Our results allow application of any
Dec-POMDP solution algorithm to multi-agent active perception problems, and
enable planning to reduce uncertainty without explicit computation of joint
estimates. We demonstrate the empirical usefulness of our results by applying a
standard Dec-POMDP algorithm to multi-agent active perception problems, showing
increased scalability in the planning horizon.
- Abstract(参考訳): マルチエージェントアクティブ・インセプション(Multi-agent active perception)とは、エージェントのチームが協調して観測を行い、隠れた変数の合同推定を計算するタスクである。
タスクは分散化され、すべてのエージェントの観察を融合することにより、タスク終了後にのみ共同見積もりを計算できる。
目標は見積の精度を最大化することである。
精度は、タスク終了後にすべてのエージェントが収集した観察を知覚する集中型意思決定者によって決定される集中型予測報酬によって定量化される。
本稿では,マルチエージェントアクティブ知覚を,凸集中型予測報酬を伴う分散部分可観測マルコフ決定過程(dec-pomdp)としてモデル化する。
本研究では,各エージェントに対して個別の予測アクションを導入することにより,分散化された予測報酬を持つ標準のDec-POMDPに変換する。
分散化による損失は有界であり、それがゼロである場合の十分な条件を与える。
この結果から,任意のDec-POMDP解法をマルチエージェント能動認識問題に適用し,共同推定の明示的な計算を行なわずに不確実性を抑えることが可能となった。
マルチエージェント能動認識問題に標準のDec-POMDPアルゴリズムを適用することで,提案手法の実証的有用性を実証し,計画の地平線におけるスケーラビリティの向上を示す。
関連論文リスト
- Scalable Decentralized Algorithms for Online Personalized Mean Estimation [12.002609934938224]
本研究は,各エージェントが実数値分布からサンプルを収集し,その平均値を推定する,オーバーアーキシング問題の簡易版に焦点を当てた。
1つは信念の伝播からインスピレーションを得ており、もう1つはコンセンサスに基づくアプローチを採用している。
論文 参考訳(メタデータ) (2024-02-20T08:30:46Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Lightweight Distributed Gaussian Process Regression for Online Machine
Learning [2.0305676256390934]
エージェントのグループは、ストリーミングデータを通じて共通の静的潜伏関数を協調的に学習することを目指している。
本稿では,通信,計算,メモリにおけるエージェントの限られた能力を認識する軽量分散ガウスプロセス回帰(GPR)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-11T01:13:22Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。