論文の概要: Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation
- arxiv url: http://arxiv.org/abs/2504.15876v2
- Date: Wed, 23 Apr 2025 15:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.788527
- Title: Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation
- Title(参考訳): 階層的強化学習に基づく双方向タスク移動計画
- Authors: Qizhen Wu, Lei Chen, Kexin Liu, Jinhu Lü,
- Abstract要約: Swarm Roboticsでは、戦略的対立を含む対決シナリオは、効率的な意思決定を必要とする。
従来のタスクと動作計画手法は意思決定を2つの層に分けるが、その一方向構造はこれらの層間の相互依存を捉えない。
本稿では階層的強化学習に基づく新しい双方向手法を提案し,層間の動的相互作用を実現する。
- 参考スコア(独自算出の注目度): 12.122881147337505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In swarm robotics, confrontation scenarios, including strategic confrontations, require efficient decision-making that integrates discrete commands and continuous actions. Traditional task and motion planning methods separate decision-making into two layers, but their unidirectional structure fails to capture the interdependence between these layers, limiting adaptability in dynamic environments. Here, we propose a novel bidirectional approach based on hierarchical reinforcement learning, enabling dynamic interaction between the layers. This method effectively maps commands to task allocation and actions to path planning, while leveraging cross-training techniques to enhance learning across the hierarchical framework. Furthermore, we introduce a trajectory prediction model that bridges abstract task representations with actionable planning goals. In our experiments, it achieves over 80% in confrontation win rate and under 0.01 seconds in decision time, outperforming existing approaches. Demonstrations through large-scale tests and real-world robot experiments further emphasize the generalization capabilities and practical applicability of our method.
- Abstract(参考訳): Swarm Roboticsでは、戦略的な対立を含む対決シナリオは、個別のコマンドと継続的なアクションを統合する効率的な意思決定を必要とする。
従来のタスクと動作計画手法は意思決定を2つの層に分けるが、その一方向構造はこれらの層間の相互依存を捉えず、動的環境における適応性を制限する。
本稿では階層的強化学習に基づく新しい双方向手法を提案し,層間の動的相互作用を実現する。
本手法は,タスク割り当てと動作を経路計画に効果的にマッピングし,クロストレーニング技術を活用して階層的なフレームワーク間の学習を促進する。
さらに,抽象的なタスク表現を実行可能な計画目標にブリッジする軌道予測モデルを導入する。
実験では, 対決勝利率80%以上, 決定時間0.01秒以下を達成し, 既存手法より優れていた。
大規模実験と実世界のロボット実験による実証は,本手法の一般化能力と実用性をさらに強調する。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty [12.122881147337505]
未知の相手の戦略、動的な障害、不十分な訓練によって引き起こされる高い不確実性は、アクション空間をハイブリッドな決定プロセスに複雑化する。
本稿では,目標配置層,経路計画層,基礎となる動的相互作用機構からなる新しい階層型強化学習手法を提案する。
両層が導入した不安定なトレーニングプロセスを克服するために,事前学習とクロストレーニングを含む統合トレーニング手法を設計する。
論文 参考訳(メタデータ) (2024-06-12T05:12:10Z) - Multi-Agent Transfer Learning via Temporal Contrastive Learning [8.487274986507922]
本稿では,深層多エージェント強化学習のための新しい伝達学習フレームワークを提案する。
このアプローチは、ゴール条件付きポリシーと時間的コントラスト学習を自動的に組み合わせて、意味のあるサブゴールを発見する。
論文 参考訳(メタデータ) (2024-06-03T14:42:14Z) - Deep hybrid models: infer and plan in a dynamic world [0.0]
複雑な制御タスクに対する能動推論に基づく解を提案する。
提案したアーキテクチャは、ハイブリッド(離散および連続)処理を利用する。
モデルが異なる条件下で提示された課題に対処できることが示される。
論文 参考訳(メタデータ) (2024-02-01T15:15:25Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Chain-of-Thought Predictive Control [32.30974063877643]
複雑な低レベル制御のための実証から一般化可能な政策学習について研究する。
準最適デモを利用した新しい階層型模倣学習法を提案する。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Multi-lane Cruising Using Hierarchical Planning and Reinforcement
Learning [3.7438459768783794]
マルチレーンの巡航には、車線変更と車線内操作を用い、良好な速度を達成し、安全を維持する必要がある。
本稿では,階層型強化学習フレームワークと新しい状態-作用空間抽象化を組み合わせることで,自律型マルチレーンクルーズの設計を提案する。
論文 参考訳(メタデータ) (2021-10-01T21:03:39Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。