論文の概要: Learning to Seek: Multi-Agent Online Source Seeking Against
Non-Stochastic Disturbances
- arxiv url: http://arxiv.org/abs/2305.00154v1
- Date: Sat, 29 Apr 2023 02:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:50:07.249881
- Title: Learning to Seek: Multi-Agent Online Source Seeking Against
Non-Stochastic Disturbances
- Title(参考訳): 学習から学びへ:非確率的外乱に反するマルチエージェントのオンラインソース
- Authors: Bin Du and Kun Qian and Christian Claudel and Dengfeng Sun
- Abstract要約: 基礎となる環境は未知であるが、動的に変化し、また2種類の非確率的障害によって摂動する。
非確率的障害に対処するために, 割引カルマンフィルタの新たな手法を開発した。
本アルゴリズムは,非確率的乱れの2つのタイプにおいて,線形的後悔を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 10.666065763250614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes to leverage the emerging~learning techniques and devise a
multi-agent online source {seeking} algorithm under unknown environment. Of
particular significance in our problem setups are: i) the underlying
environment is not only unknown, but dynamically changing and also perturbed by
two types of non-stochastic disturbances; and ii) a group of agents is deployed
and expected to cooperatively seek as many sources as possible.
Correspondingly, a new technique of discounted Kalman filter is developed to
tackle with the non-stochastic disturbances, and a notion of confidence bound
in polytope nature is utilized~to aid the computation-efficient cooperation
among~multiple agents. With standard assumptions on the unknown environment as
well as the disturbances, our algorithm is shown to achieve sub-linear regrets
under the two~types of non-stochastic disturbances; both results are comparable
to the state-of-the-art. Numerical examples on a real-world pollution
monitoring application are provided to demonstrate the effectiveness of our
algorithm.
- Abstract(参考訳): 本稿では,新しい学習手法を活用し,未知環境下でのマルチエージェントオンライン検索アルゴリズムを提案する。
問題設定における特に重要な点は
一 基礎となる環境は、未知だけでなく、動的に変化し、二種類の非確率的障害に悩まされていること。
二 エージェントの集団が配置され、できるだけ多くの情報源を協力的に探究することが期待されていること。
そこで,非確率的障害に対処するために,割引カルマンフィルタの新たな手法を開発し,ポリトープの性質に結びついた信頼感の概念を用いて,マルチプルエージェント間の計算効率のよい協調を支援する。
未知の環境と乱れに関する標準的な仮定により、我々のアルゴリズムは2種類の非確率的乱れのタイプの下で線形的後悔を達成し、どちらも最先端のものと同等である。
本手法の有効性を示すために,実環境汚染モニタリングアプリケーションの数値例を示した。
関連論文リスト
- Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Energy-Guided Continuous Entropic Barycenter Estimation for General Costs [95.33926437521046]
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
本手法は、弱いOTに基づくEOT問題の二重再構成に基づいている。
論文 参考訳(メタデータ) (2023-10-02T11:24:36Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Toward Risk-based Optimistic Exploration for Cooperative Multi-Agent
Reinforcement Learning [9.290757451344673]
分布のサンプリング領域をシフトさせることにより協調的に楽観的な行動をもたらすリスクベースの探索を提案する。
本手法は, 量子レグレッションに基づく協調探索を必要とするマルチエージェント環境において, 顕著な性能を示す。
論文 参考訳(メタデータ) (2023-03-03T08:17:57Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。