論文の概要: A Policy Iteration Approach for Flock Motion Control
- arxiv url: http://arxiv.org/abs/2303.10035v1
- Date: Fri, 17 Mar 2023 15:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 14:16:26.354489
- Title: A Policy Iteration Approach for Flock Motion Control
- Title(参考訳): 群れ運動制御のためのポリシー反復アプローチ
- Authors: Shuzheng Qu, Mohammed Abouheaf, Wail Gueaieb and Davide Spinello
- Abstract要約: 全体的な制御プロセスは、群れの粘着性と局在性を監視しながらエージェントを誘導する。
ここでは、独立したコマンドジェネレータに従うためにエージェント群を誘導するために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。
政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
- 参考スコア(独自算出の注目度): 5.419608513284392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The flocking motion control is concerned with managing the possible conflicts
between local and team objectives of multi-agent systems. The overall control
process guides the agents while monitoring the flock-cohesiveness and
localization. The underlying mechanisms may degrade due to overlooking the
unmodeled uncertainties associated with the flock dynamics and formation. On
another side, the efficiencies of the various control designs rely on how
quickly they can adapt to different dynamic situations in real-time. An online
model-free policy iteration mechanism is developed here to guide a flock of
agents to follow an independent command generator over a time-varying graph
topology. The strength of connectivity between any two agents or the graph edge
weight is decided using a position adjacency dependent function. An online
recursive least squares approach is adopted to tune the guidance strategies
without knowing the dynamics of the agents or those of the command generator.
It is compared with another reinforcement learning approach from the literature
which is based on a value iteration technique. The simulation results of the
policy iteration mechanism revealed fast learning and convergence behaviors
with less computational effort.
- Abstract(参考訳): 群れ移動制御は、マルチエージェントシステムのローカルとチームの目標間の衝突の可能性があることを管理する。
全体的な制御プロセスは、群集結合性と局在を監視しながらエージェントを導く。
根底にあるメカニズムは、群れのダイナミクスと形成に関連する不確実性を見落としているため、劣化する可能性がある。
一方、様々な制御設計の効率性は、リアルタイムで異なる動的状況に迅速に適応できることに依存している。
時間変化グラフトポロジ上で独立したコマンドジェネレータに従うようにエージェント群をガイドするために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。
位置隣接依存性関数を用いて、任意の2つのエージェント間の接続強度またはグラフエッジ重みを決定する。
エージェントやコマンドジェネレータのダイナミクスを知らずにガイダンス戦略を調整するために、オンライン再帰的最小二乗法が採用されている。
これは、価値反復法に基づく文献からの他の強化学習手法と比較される。
政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z) - TASAC: a twin-actor reinforcement learning framework with stochastic
policy for batch process control [1.101002667958165]
強化学習(Reinforcement Learning, RL)は、エージェントが環境と直接対話することでポリシーを学習し、この文脈において潜在的な代替手段を提供する。
アクター批判型アーキテクチャを持つRLフレームワークは、状態空間とアクション空間が連続しているシステムを制御するために最近人気になっている。
アクターと批評家のネットワークのアンサンブルは、同時に政策学習による探索の強化により、エージェントがより良い政策を学ぶのに役立つことが示されている。
論文 参考訳(メタデータ) (2022-04-22T13:00:51Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Trajectory Tracking of Underactuated Sea Vessels With Uncertain
Dynamics: An Integral Reinforcement Learning Approach [2.064612766965483]
積分強化学習に基づくオンライン機械学習メカニズムを提案し,非線形追跡問題のクラスに対する解を求める。
このソリューションは、適応的批評家と勾配降下アプローチを用いて実現されるオンライン価値反復プロセスを用いて実装される。
論文 参考訳(メタデータ) (2021-04-01T01:41:49Z) - CARL: Controllable Agent with Reinforcement Learning for Quadruped
Locomotion [0.0]
CARLは、高レベルの指示で制御でき、動的環境に自然に反応できる4重結合剤である。
我々は、ジェネレーティブ・アドリラル・ネットワークを使用して、速度や方向などのハイレベルな制御を、オリジナルのアニメーションに対応するアクション・ディストリビューションに適応させる。
深部強化学習によるさらなる微調整により、エージェントは、スムーズな遷移を発生させながら、目に見えない外部摂動から回復することができる。
論文 参考訳(メタデータ) (2020-05-07T07:18:57Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。