論文の概要: TERL: Large-Scale Multi-Target Encirclement Using Transformer-Enhanced Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.12395v1
- Date: Sun, 16 Mar 2025 07:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:28:04.703567
- Title: TERL: Large-Scale Multi-Target Encirclement Using Transformer-Enhanced Reinforcement Learning
- Title(参考訳): TERL: Transformer-Enhanced Reinforcement Learning を用いた大規模マルチターゲット循環
- Authors: Heng Zhang, Guoxiang Zhao, Xiaoqiang Ren,
- Abstract要約: 本稿では,大規模マルチターゲット囲いに対するトランスフォーマー強化型強化学習フレームワークを提案する。
変換器ベースのポリシーネットワークとターゲット選択を統合することで、TERLはロボットがターゲットを適応的に優先順位付けし、ロボットを安全に調整することを可能にする。
その結果,TERLは大規模シナリオにおいて良好な性能を維持しつつ,既存のRL法よりも円周成功率やタスク完了時間に優れていた。
- 参考スコア(独自算出の注目度): 3.8466460749014826
- License:
- Abstract: Pursuit-evasion (PE) problem is a critical challenge in multi-robot systems (MRS). While reinforcement learning (RL) has shown its promise in addressing PE tasks, research has primarily focused on single-target pursuit, with limited exploration of multi-target encirclement, particularly in large-scale settings. This paper proposes a Transformer-Enhanced Reinforcement Learning (TERL) framework for large-scale multi-target encirclement. By integrating a transformer-based policy network with target selection, TERL enables robots to adaptively prioritize targets and safely coordinate robots. Results show that TERL outperforms existing RL-based methods in terms of encirclement success rate and task completion time, while maintaining good performance in large-scale scenarios. Notably, TERL, trained on small-scale scenarios (15 pursuers, 4 targets), generalizes effectively to large-scale settings (80 pursuers, 20 targets) without retraining, achieving a 100% success rate.
- Abstract(参考訳): マルチロボットシステム(MRS: Multi-robot system)において,Pursuit-evasion (PE)問題は重要な課題である。
強化学習(RL)はPEタスクに対処する上で有望であるが、特に大規模環境では、特にマルチターゲットの囲い込みを限定的に探究することを中心に研究が主眼を置いている。
本稿では,大規模なマルチターゲット環境を実現するためのトランスフォーマー強化強化学習(TERL)フレームワークを提案する。
変換器ベースのポリシーネットワークとターゲット選択を統合することで、TERLはロボットがターゲットを適応的に優先順位付けし、ロボットを安全に調整することを可能にする。
その結果,TERLは大規模シナリオにおいて良好な性能を維持しつつ,既存のRL法よりも円周成功率やタスク完了時間に優れていた。
特に、TERLは小規模シナリオ(追跡者15人、目標4人)で訓練され、再トレーニングなしに大規模な設定(追跡者80人、目標20人)に効果的に一般化し、100%の成功率を達成する。
関連論文リスト
- Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Efficient Skill Acquisition for Complex Manipulation Tasks in Obstructed
Environments [18.348489257164356]
本稿では,オブジェクト指向生成モデル(OCGM)を多目的ゴール識別に活用する,効率的なスキル獲得システムを提案する。
OCGMは、新しいシーンでワンショットターゲットオブジェクトの識別と再識別を可能にし、MPは障害物を避けながらロボットを対象オブジェクトに誘導することができる。
論文 参考訳(メタデータ) (2023-03-06T18:49:59Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Deep Reinforcement Learning with Adaptive Hierarchical Reward for
MultiMulti-Phase Multi Multi-Objective Dexterous Manipulation [11.638614321552616]
優先度の変動により、ロボットは深層強化学習(DRL)法で最適なポリシーをほとんど学ばず、あるいはうまくいかなかった。
我々は、DRLエージェントを誘導し、複数の優先順位付けされた目的を持つ操作タスクを学習するための、新しい適応階層リワード機構(AHRM)を開発した。
提案手法は,JACOロボットアームを用いた多目的操作タスクにおいて検証される。
論文 参考訳(メタデータ) (2022-05-26T15:44:31Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。