論文の概要: Multi-Agent Generative Adversarial Interactive Self-Imitation Learning
for AUV Formation Control and Obstacle Avoidance
- arxiv url: http://arxiv.org/abs/2401.11378v1
- Date: Sun, 21 Jan 2024 03:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:43:02.314113
- Title: Multi-Agent Generative Adversarial Interactive Self-Imitation Learning
for AUV Formation Control and Obstacle Avoidance
- Title(参考訳): AUV形成制御と障害物回避のためのマルチエージェント逆対話型セルフイミテーション学習
- Authors: Zheng Fang, Tianhao Chen, Dong Jiang, Zheng Zhang and Guangliang Li
- Abstract要約: 本稿では,MAGAILアルゴリズムをベースとして,マルチエージェント・ジェネレーティブな対話型自己アニメーション学習(MAGAISIL)を提案する。
マルチAUV生成制御と障害物回避タスクによる実験結果から,MAGAISILを用いて訓練したAUVが,提案した準最適専門家による実験を超越できることが示唆された。
- 参考スコア(独自算出の注目度): 10.834762022842353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiple autonomous underwater vehicles (multi-AUV) can cooperatively
accomplish tasks that a single AUV cannot complete. Recently, multi-agent
reinforcement learning has been introduced to control of multi-AUV. However,
designing efficient reward functions for various tasks of multi-AUV control is
difficult or even impractical. Multi-agent generative adversarial imitation
learning (MAGAIL) allows multi-AUV to learn from expert demonstration instead
of pre-defined reward functions, but suffers from the deficiency of requiring
optimal demonstrations and not surpassing provided expert demonstrations. This
paper builds upon the MAGAIL algorithm by proposing multi-agent generative
adversarial interactive self-imitation learning (MAGAISIL), which can
facilitate AUVs to learn policies by gradually replacing the provided
sub-optimal demonstrations with self-generated good trajectories selected by a
human trainer. Our experimental results in a multi-AUV formation control and
obstacle avoidance task on the Gazebo platform with AUV simulator of our lab
show that AUVs trained via MAGAISIL can surpass the provided sub-optimal expert
demonstrations and reach a performance close to or even better than MAGAIL with
optimal demonstrations. Further results indicate that AUVs' policies trained
via MAGAISIL can adapt to complex and different tasks as well as MAGAIL
learning from optimal demonstrations.
- Abstract(参考訳): 複数の自律型水中車両(マルチAUV)は、単一のAUVが完成できないタスクを協調的に達成することができる。
近年,マルチAUV制御のためにマルチエージェント強化学習が導入されている。
しかしながら、マルチauv制御の様々なタスクに対する効率的な報酬関数の設計は困難または非現実的である。
MRAIL(Multi-agent generative adversarial mimicion learning)は、複数のAUVが事前に定義された報酬関数ではなく、専門家によるデモンストレーションから学ぶことができるが、最適なデモンストレーションを必要とし、与えられた専門家によるデモを超えないという欠点がある。
本稿では,AUVが提供した準最適実験を,人間のトレーナーが選択した自己生成良軌道に徐々に置き換えることによって,ポリシーの学習を容易にするマルチエージェント生成型対人自己アニメーション学習(MAGAISIL)を提案する。
実験室のAUVシミュレータを用いたGazeboプラットフォーム上でのマルチAUV生成制御および障害物回避タスクによる実験結果から,MAGAISILを用いてトレーニングしたAUVが,提案した準最適専門家による実験を超越し,MAGAILよりも近い性能に到達できることが示唆された。
さらに,MAGAISILを介して訓練されたAUVsのポリシーは,多種多様なタスクに適応し,かつ最適なデモンストレーションからMAGAILを学習できることが示唆された。
関連論文リスト
- Smurfs: Leveraging Multiple Proficiency Agents with Context-Efficiency for Tool Planning [14.635361844362794]
Smurfs'は、大規模言語モデルの応用に革命をもたらすために設計された最先端のマルチエージェントフレームワークである。
Smurfは、余分なコストなしで複雑なタスクを解くモデルの能力を高めることができる。
論文 参考訳(メタデータ) (2024-05-09T17:49:04Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z) - Universal Visual Decomposer: Long-Horizon Manipulation Made Easy [54.93745986073738]
現実世界のロボットタスクは、幅広い地平線を越えて、複数のステージを包含する。
従来のタスク分解手法では、タスク固有の知識が必要であり、計算集約的であり、新しいタスクに容易に適用できない。
視覚的長時間水平方向操作のためのオフザシェルフタスク分解法であるUniversal Visual Decomposer (UVD)を提案する。
シミュレーションと実世界のタスクの両方でUVDを広範囲に評価し、すべての場合において、UVDは模倣と強化学習設定でベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-12T17:59:41Z) - Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations
for Flocking Control [6.398557794102739]
浮揚制御は無人航空機や自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。
従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。
本稿では,MARL (PwD-MARL) の実証による事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T15:24:37Z) - GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
論文 参考訳(メタデータ) (2021-04-14T02:58:51Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。