論文の概要: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty
- arxiv url: http://arxiv.org/abs/2406.07877v1
- Date: Wed, 12 Jun 2024 05:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:25:01.715363
- Title: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty
- Title(参考訳): 高不確実性を有する群集整合のための階層的強化学習
- Authors: Qizhen Wu, Kexin Liu, Lei Chen, Jinhu Lv,
- Abstract要約: 未知の相手の戦略や動的な障害によって引き起こされる高い不確実性は、アクション空間をハイブリッド決定プロセスに複雑化する。
本稿では,目標配置層,経路計画層,基礎となる動的相互作用機構からなる新しい階層型強化学習手法を提案する。
ハイブリッドプロセスを離散的なアロケーション層と連続的な計画層に分離し、確率的アンサンブルモデルを用いて不確実性を定量化し、相互作用周波数を適応的に調節する。
- 参考スコア(独自算出の注目度): 6.246432096251335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In swarm robotics, confrontation including the pursuit-evasion game is a key scenario. High uncertainty caused by unknown opponents' strategies and dynamic obstacles complicates the action space into a hybrid decision process. Although the deep reinforcement learning method is significant for swarm confrontation since it can handle various sizes, as an end-to-end implementation, it cannot deal with the hybrid process. Here, we propose a novel hierarchical reinforcement learning approach consisting of a target allocation layer, a path planning layer, and the underlying dynamic interaction mechanism between the two layers, which indicates the quantified uncertainty. It decouples the hybrid process into discrete allocation and continuous planning layers, with a probabilistic ensemble model to quantify the uncertainty and regulate the interaction frequency adaptively. Furthermore, to overcome the unstable training process introduced by the two layers, we design an integration training method including pre-training and cross-training, which enhances the training efficiency and stability. Experiment results in both comparison and ablation studies validate the effectiveness and generalization performance of our proposed approach.
- Abstract(参考訳): Swarm Roboticsでは、追跡回避ゲームを含む対決が重要なシナリオである。
未知の相手の戦略や動的な障害によって引き起こされる高い不確実性は、アクション空間をハイブリッド決定プロセスに複雑化する。
この深層強化学習法は,様々なサイズに対応できるため,群集対決において重要であるが,エンド・ツー・エンドの実装ではハイブリッド処理には対応できない。
本稿では,ターゲット配置層,経路計画層,および2つの層間の動的相互作用機構からなる新しい階層型強化学習手法を提案する。
ハイブリッドプロセスを離散的なアロケーション層と連続的な計画層に分離し、確率的アンサンブルモデルを用いて不確実性を定量化し、相互作用周波数を適応的に調節する。
さらに,両層が導入する不安定なトレーニングプロセスを克服するために,事前学習とクロストレーニングを含む統合トレーニング手法を設計し,トレーニング効率と安定性を向上させる。
比較およびアブレーション実験の結果,提案手法の有効性と一般化性能が検証された。
関連論文リスト
- Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Sequential Neural Barriers for Scalable Dynamic Obstacle Avoidance [7.375976854181687]
SNCBF(Sequential Neural Control Barrier Model)の合成学習法を提案する。
複数の動的障害物の空間的相互作用パターンを分解し,各障害物の状態列を通じて予測することができる。
提案手法の利点は,既存の手法と比較して動的衝突回避を改善することである。
論文 参考訳(メタデータ) (2023-07-06T14:24:17Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Decorrelative Network Architecture for Robust Electrocardiogram
Classification [4.808817930937323]
すべてのシナリオで正確であるネットワークをトレーニングすることはできない。
深層学習法は不確実性を推定するためにモデルパラメータ空間をサンプリングする。
これらのパラメータは、しばしば、敵の攻撃によって悪用される、同じ脆弱性にさらされる。
本稿では,特徴デコレーションとフーリエ分割に基づく新たなアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T02:36:36Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。