論文の概要: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty
- arxiv url: http://arxiv.org/abs/2406.07877v2
- Date: Fri, 25 Oct 2024 08:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:49.689215
- Title: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty
- Title(参考訳): 高不確実性を有する群集整合のための階層的強化学習
- Authors: Qizhen Wu, Kexin Liu, Lei Chen, Jinhu Lü,
- Abstract要約: 未知の相手の戦略、動的な障害、不十分な訓練によって引き起こされる高い不確実性は、アクション空間をハイブリッドな決定プロセスに複雑化する。
本稿では,目標配置層,経路計画層,基礎となる動的相互作用機構からなる新しい階層型強化学習手法を提案する。
両層が導入した不安定なトレーニングプロセスを克服するために,事前学習とクロストレーニングを含む統合トレーニング手法を設計する。
- 参考スコア(独自算出の注目度): 12.122881147337505
- License:
- Abstract: In swarm robotics, confrontation including the pursuit-evasion game is a key scenario. High uncertainty caused by unknown opponents' strategies, dynamic obstacles, and insufficient training complicates the action space into a hybrid decision process. Although the deep reinforcement learning method is significant for swarm confrontation since it can handle various sizes, as an end-to-end implementation, it cannot deal with the hybrid process. Here, we propose a novel hierarchical reinforcement learning approach consisting of a target allocation layer, a path planning layer, and the underlying dynamic interaction mechanism between the two layers, which indicates the quantified uncertainty. It decouples the hybrid process into discrete allocation and continuous planning layers, with a probabilistic ensemble model to quantify the uncertainty and regulate the interaction frequency adaptively. Furthermore, to overcome the unstable training process introduced by the two layers, we design an integration training method including pre-training and cross-training, which enhances the training efficiency and stability. Experiment results in both comparison, ablation, and real-robot studies validate the effectiveness and generalization performance of our proposed approach. In our defined experiments with twenty to forty agents, the win rate of the proposed method reaches around ninety percent, outperforming other traditional methods.
- Abstract(参考訳): Swarm Roboticsでは、追跡回避ゲームを含む対決が重要なシナリオである。
未知の相手の戦略、動的な障害、不十分な訓練によって引き起こされる高い不確実性は、アクション空間をハイブリッドな決定プロセスに複雑化する。
この深層強化学習法は,様々なサイズに対応できるため,群集対決において重要であるが,エンド・ツー・エンドの実装ではハイブリッド処理には対応できない。
本稿では,ターゲット配置層,経路計画層,および2つの層間の動的相互作用機構からなる新しい階層型強化学習手法を提案する。
ハイブリッドプロセスを離散的なアロケーション層と連続的な計画層に分離し、確率的アンサンブルモデルを用いて不確実性を定量化し、相互作用周波数を適応的に調節する。
さらに,両層が導入する不安定なトレーニングプロセスを克服するために,事前学習とクロストレーニングを含む統合トレーニング手法を設計し,トレーニング効率と安定性を向上させる。
比較,アブレーション,実ロボット実験の結果,提案手法の有効性と一般化性能が検証された。
20から40のエージェントで定義された実験では,提案手法の勝利率は90%程度に達し,従来の手法よりも優れていた。
関連論文リスト
- Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Decorrelative Network Architecture for Robust Electrocardiogram
Classification [4.808817930937323]
すべてのシナリオで正確であるネットワークをトレーニングすることはできない。
深層学習法は不確実性を推定するためにモデルパラメータ空間をサンプリングする。
これらのパラメータは、しばしば、敵の攻撃によって悪用される、同じ脆弱性にさらされる。
本稿では,特徴デコレーションとフーリエ分割に基づく新たなアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T02:36:36Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。