論文の概要: ReCoDe: Reinforcement Learning-based Dynamic Constraint Design for Multi-Agent Coordination
- arxiv url: http://arxiv.org/abs/2507.19151v1
- Date: Fri, 25 Jul 2025 10:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.925305
- Title: ReCoDe: Reinforcement Learning-based Dynamic Constraint Design for Multi-Agent Coordination
- Title(参考訳): ReCoDe:マルチエージェントコーディネーションのための強化学習に基づく動的制約設計
- Authors: Michael Amir, Guang Yang, Zhan Gao, Keisuke Okumura, Heedo Woo, Amanda Prorok,
- Abstract要約: 本稿では,分散化されたハイブリッドフレームワークReCoDeを紹介する。これは,最適化ベースのコントローラの信頼性と強化学習の適応性を融合させる。
本研究では、複雑なコンテキストベースの動きとコンセンサスを必要とするマルチエージェントナビゲーションタスクへのReCoDeの適用に焦点を当てる。
我々は,ユーザ定義コントローラの維持が不完全である場合でも,スクラッチから学習するよりも効率的であるという経験的(実際のロボット)および理論的証拠を提示する。
- 参考スコア(独自算出の注目度): 19.115931862737508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constraint-based optimization is a cornerstone of robotics, enabling the design of controllers that reliably encode task and safety requirements such as collision avoidance or formation adherence. However, handcrafted constraints can fail in multi-agent settings that demand complex coordination. We introduce ReCoDe--Reinforcement-based Constraint Design--a decentralized, hybrid framework that merges the reliability of optimization-based controllers with the adaptability of multi-agent reinforcement learning. Rather than discarding expert controllers, ReCoDe improves them by learning additional, dynamic constraints that capture subtler behaviors, for example, by constraining agent movements to prevent congestion in cluttered scenarios. Through local communication, agents collectively constrain their allowed actions to coordinate more effectively under changing conditions. In this work, we focus on applications of ReCoDe to multi-agent navigation tasks requiring intricate, context-based movements and consensus, where we show that it outperforms purely handcrafted controllers, other hybrid approaches, and standard MARL baselines. We give empirical (real robot) and theoretical evidence that retaining a user-defined controller, even when it is imperfect, is more efficient than learning from scratch, especially because ReCoDe can dynamically change the degree to which it relies on this controller.
- Abstract(参考訳): 制約ベースの最適化はロボティクスの基盤であり、衝突回避や形成付着といったタスクと安全要件を確実にエンコードするコントローラの設計を可能にする。
しかし、複雑な調整を必要とするマルチエージェント設定では、手作業による制約が失敗する可能性がある。
本稿では,ReCoDe-Reinforcement-based Constraint Design(ReCoDe-Reinforcement-based Constraint Design)を紹介する。
専門家のコントローラを捨てるのではなく、ReCoDeは、たとえば、散らかったシナリオの混雑を防ぐためにエージェントの動きを制約することで、より微妙な振る舞いをキャプチャする、よりダイナミックな制約を学習することで、それらを改善する。
ローカル通信を通じて、エージェントは許可されたアクションをまとめて、変化する条件下でより効果的にコーディネートする。
本研究では,ReCoDeの複雑なコンテキストベースの動作とコンセンサスを必要とするマルチエージェントナビゲーションタスクへの適用に焦点をあて,手作りのコントローラやハイブリッドなアプローチ,標準のMARLベースラインよりも優れていることを示す。
ユーザ定義コントローラの維持が不完全であっても,特にReCoDeがこのコントローラに依存している程度を動的に変更できるため,スクラッチから学習するよりも効率がよいという実証的(実際のロボット)および理論的証拠を提示する。
関連論文リスト
- Control-Optimized Deep Reinforcement Learning for Artificially Intelligent Autonomous Systems [8.766411351797885]
深層強化学習(DRL)は、機械学習とAIにおいて、複雑な意思決定のための強力なツールとなっている。
従来の手法では、エージェントが選択したアクションと実際のシステム応答の間の不確実性や逸脱を見越して、完璧なアクション実行を仮定することが多い。
この作業は、アクション実行ミスマッチを明示的にモデル化し補償する、制御最適化DRLフレームワークを開発することで、AIを前進させる。
論文 参考訳(メタデータ) (2025-06-30T21:25:52Z) - Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges [19.390215975410406]
ロボット、スマートシティ、自動運転車における自律エッジコンピューティングは、センサー、処理、アクチュエーターのシームレスな統合に依存している。
中心となるのは、センサー入力と計算モデルとを反復的に整列させて適応制御戦略を駆動するセンサー・ツー・アクション・ループである。
本稿では、能動的、文脈対応型センシング・ツー・アクションとアクション・トゥ・センシングの適応によって効率が向上する方法について論じる。
論文 参考訳(メタデータ) (2025-02-04T20:13:58Z) - Communication-Control Codesign for Large-Scale Wireless Networked Control Systems [80.30532872347668]
無線ネットワーク制御システム(Wireless Networked Control Systems, WNCS)は、ドローン群や自律ロボットなどのアプリケーションにおいて柔軟な制御を可能にする産業用4.0に必須である。
本稿では,マルチ状態マルコフブロックフェーディングチャネル上で限られた無線リソースを共有するセンサやアクチュエータを用いて,複数の制御ループ間の相関ダイナミクスを捕捉する実用的WNCSモデルを提案する。
本研究では,ハイブリッドな動作空間を効率的に処理し,通信制御の相関関係を捉え,疎域変数や浮動小数点制御の入力に拘わらず堅牢なトレーニングを確実にするDeep Reinforcement Learning (DRL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-15T06:28:21Z) - PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion [1.123472110161393]
四足歩行におけるモデル予測制御(MPC)の強みは、制約を強制する能力である。
自己受容型計画と強化学習(RL)を統合した枠組みを提案する。
デプロイ中、Dreamerモジュールは無限水平MPC問題を解決する。
論文 参考訳(メタデータ) (2024-09-14T13:51:37Z) - Cooperative Cognitive Dynamic System in UAV Swarms: Reconfigurable Mechanism and Framework [80.39138462246034]
UAVスワムの管理を最適化するための協調認知力学システム(CCDS)を提案する。
CCDSは階層的かつ協調的な制御構造であり、リアルタイムのデータ処理と意思決定を可能にする。
さらに、CCDSは、UAVスワムのタスクを効率的に割り当てるための生体模倣機構と統合することができる。
論文 参考訳(メタデータ) (2024-05-18T12:45:00Z) - Optimal Controller Realizations against False Data Injections in Cooperative Driving [2.2134894590368748]
本研究では,False-Data Injection(FDI)攻撃の効果を緩和するためのコントローラ指向アプローチについて検討する。
我々は,新しいが等価なコントローラのクラスがベースコントローラを表現可能であることを示す。
FDI攻撃の影響を最小限に抑えるセンサの最適組み合わせを得る。
論文 参考訳(メタデータ) (2024-04-08T09:53:42Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Deep Learning for Wireless Networked Systems: a joint
Estimation-Control-Scheduling Approach [47.29474858956844]
ワイヤレスネットワーク制御システム(Wireless Networked Control System, WNCS)は、無線通信を介してセンサ、コントローラ、アクチュエータを接続する技術であり、産業用 4.0 時代において、高度にスケーラブルで低コストな制御システムの展開を可能にする技術である。
WNCSにおける制御と通信の密接な相互作用にもかかわらず、既存のほとんどの研究は分離設計アプローチを採用している。
モデルフリーデータとモデルベースデータの両方を利用する制御と最適化のための,DRLに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T01:29:40Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。