Fugu-MT 論文翻訳(概要): Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty

論文の概要: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty

arxiv url: http://arxiv.org/abs/2406.07877v1
Date: Wed, 12 Jun 2024 05:12:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 18:25:01.715363
Title: Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty
Title（参考訳）: 高不確実性を有する群集整合のための階層的強化学習
Authors: Qizhen Wu, Kexin Liu, Lei Chen, Jinhu Lv,
Abstract要約: 未知の相手の戦略や動的な障害によって引き起こされる高い不確実性は、アクション空間をハイブリッド決定プロセスに複雑化する。本稿では,目標配置層,経路計画層,基礎となる動的相互作用機構からなる新しい階層型強化学習手法を提案する。ハイブリッドプロセスを離散的なアロケーション層と連続的な計画層に分離し、確率的アンサンブルモデルを用いて不確実性を定量化し、相互作用周波数を適応的に調節する。
参考スコア（独自算出の注目度）: 6.246432096251335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In swarm robotics, confrontation including the pursuit-evasion game is a key scenario. High uncertainty caused by unknown opponents' strategies and dynamic obstacles complicates the action space into a hybrid decision process. Although the deep reinforcement learning method is significant for swarm confrontation since it can handle various sizes, as an end-to-end implementation, it cannot deal with the hybrid process. Here, we propose a novel hierarchical reinforcement learning approach consisting of a target allocation layer, a path planning layer, and the underlying dynamic interaction mechanism between the two layers, which indicates the quantified uncertainty. It decouples the hybrid process into discrete allocation and continuous planning layers, with a probabilistic ensemble model to quantify the uncertainty and regulate the interaction frequency adaptively. Furthermore, to overcome the unstable training process introduced by the two layers, we design an integration training method including pre-training and cross-training, which enhances the training efficiency and stability. Experiment results in both comparison and ablation studies validate the effectiveness and generalization performance of our proposed approach.
Abstract（参考訳）: Swarm Roboticsでは、追跡回避ゲームを含む対決が重要なシナリオである。未知の相手の戦略や動的な障害によって引き起こされる高い不確実性は、アクション空間をハイブリッド決定プロセスに複雑化する。この深層強化学習法は,様々なサイズに対応できるため,群集対決において重要であるが,エンド・ツー・エンドの実装ではハイブリッド処理には対応できない。本稿では,ターゲット配置層,経路計画層,および2つの層間の動的相互作用機構からなる新しい階層型強化学習手法を提案する。ハイブリッドプロセスを離散的なアロケーション層と連続的な計画層に分離し、確率的アンサンブルモデルを用いて不確実性を定量化し、相互作用周波数を適応的に調節する。さらに,両層が導入する不安定なトレーニングプロセスを克服するために,事前学習とクロストレーニングを含む統合トレーニング手法を設計し,トレーニング効率と安定性を向上させる。比較およびアブレーション実験の結果,提案手法の有効性と一般化性能が検証された。

関連論文リスト

Reinforcement Learning Agent for a 2D Shooter Game [0.0]
複雑なゲーム環境における強化学習エージェントは、しばしばスパース報酬、トレーニング不安定性、サンプル効率の低下に悩まされる。本稿では,オフライン模倣学習とオンライン強化学習を組み合わせた2次元シューティングゲームエージェントのハイブリッドトレーニング手法を提案する。
論文参考訳（メタデータ） (2025-09-18T15:07:41Z)
Learning safe, constrained policies via imitation learning: Connection to Probabilistic Inference and a Naive Algorithm [0.22099217573031676]
本稿では,タスクを実行する専門家が示す制約に従って,最大エントロピーポリシーを学習するための模倣学習手法を紹介する。実験により,制約を課す動作に対する効果的なポリシーモデルを,異なるタイプの制約が複数あり,一般化可能な設定で学習できることが示唆された。
論文参考訳（メタデータ） (2025-07-09T12:11:27Z)
Dynamic Epsilon Scheduling: A Multi-Factor Adaptive Perturbation Budget for Adversarial Training [1.5558386948322986]
敵のトレーニングは、敵の例からニューラルネットワークを守るための最も効果的な戦略の1つである。既存の敵の訓練アプローチは固定的な摂動予算に依存しており、堅牢性に特有な特性を考慮できない。本研究では,動的Epsilon Scheduling(DES)を提案する。このフレームワークは,インスタンスごとの対向摂動予算を適応的に調整し,トレーニングインスタンス毎に調整する。
論文参考訳（メタデータ） (2025-06-03T04:18:53Z)
Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation [12.122881147337505]
Swarm Roboticsでは、戦略的対立を含む対決シナリオは、効率的な意思決定を必要とする。従来のタスクと動作計画手法は意思決定を2つの層に分けるが、その一方向構造はこれらの層間の相互依存を捉えない。本稿では階層的強化学習に基づく新しい双方向手法を提案し,層間の動的相互作用を実現する。
論文参考訳（メタデータ） (2025-04-22T13:22:58Z)
Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文参考訳（メタデータ） (2023-12-30T21:37:18Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-27T14:47:52Z)
Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。本稿では,両経路の分岐点に位置する新しい手法を提案する。我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文参考訳（メタデータ） (2022-12-09T14:29:57Z)
Guaranteed Conservation of Momentum for Learning Particle-based Fluid Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-10-12T09:12:59Z)
Decorrelative Network Architecture for Robust Electrocardiogram Classification [4.808817930937323]
すべてのシナリオで正確であるネットワークをトレーニングすることはできない。深層学習法は不確実性を推定するためにモデルパラメータ空間をサンプリングする。これらのパラメータは、しばしば、敵の攻撃によって悪用される、同じ脆弱性にさらされる。本稿では,特徴デコレーションとフーリエ分割に基づく新たなアンサンブル手法を提案する。
論文参考訳（メタデータ） (2022-07-19T02:36:36Z)
Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文参考訳（メタデータ） (2022-05-02T04:04:23Z)
Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文参考訳（メタデータ） (2020-12-22T00:45:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。