論文の概要: Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP
- arxiv url: http://arxiv.org/abs/2509.01630v2
- Date: Fri, 05 Sep 2025 15:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 12:28:42.566431
- Title: Learning to Coordinate: Distributed Meta-Trajectory Optimization Via Differentiable ADMM-DDP
- Title(参考訳): 協調学習:ADMM-DDPによる分散メタトラジェクトリ最適化
- Authors: Bingheng Wang, Yichao Gao, Tianchen Sun, Lin Zhao,
- Abstract要約: 多様なタスクやエージェント構成に適応するために,L2C(Learning to Coordinate)を提案する。
L2CはADMM-DDPパイプラインを通じてエンドツーエンドを分散的に区別する。
最先端の手法よりも高速な勾配計算を実現する。
- 参考スコア(独自算出の注目度): 4.880846795915428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed trajectory optimization via ADMM-DDP is a powerful approach for coordinating multi-agent systems, but it requires extensive tuning of tightly coupled hyperparameters that jointly govern local task performance and global coordination. In this paper, we propose Learning to Coordinate (L2C), a general framework that meta-learns these hyperparameters, modeled by lightweight agent-wise neural networks, to adapt across diverse tasks and agent configurations. L2C differentiates end-to-end through the ADMM-DDP pipeline in a distributed manner. It also enables efficient meta-gradient computation by reusing DDP components such as Riccati recursions and feedback gains. These gradients correspond to the optimal solutions of distributed matrix-valued LQR problems, coordinated across agents via an auxiliary ADMM framework that becomes convex under mild assumptions. Training is further accelerated by truncating iterations and meta-learning ADMM penalty parameters optimized for rapid residual reduction, with provable Lipschitz-bounded gradient errors. On a challenging cooperative aerial transport task, L2C generates dynamically feasible trajectories in high-fidelity simulation using IsaacSIM, reconfigures quadrotor formations for safe 6-DoF load manipulation in tight spaces, and adapts robustly to varying team sizes and task conditions, while achieving up to $88\%$ faster gradient computation than state-of-the-art methods.
- Abstract(参考訳): ADMM-DDPによる分散トラジェクトリ最適化はマルチエージェントシステムのコーディネートのための強力なアプローチであるが、局所的なタスク性能とグローバルなコーディネートを共同で管理する密結合型ハイパーパラメータの広範囲なチューニングが必要である。
本稿では,多種多様なタスクやエージェント構成に適応するために,軽量なエージェントワイドニューラルネットワークによってモデル化された,これらのハイパーパラメータをメタ学習する一般的なフレームワークであるL2Cを提案する。
L2CはADMM-DDPパイプラインを通じてエンドツーエンドを分散的に区別する。
また、Riccati再帰やフィードバックゲインといったDDPコンポーネントを再利用することで、効率的なメタ勾配計算を可能にする。
これらの勾配は、軽度仮定の下で凸となる補助ADMMフレームワークを介してエージェント間で調整された分散行列値LQR問題の最適解に対応する。
トレーニングはさらに、反復とメタラーニングADMMペナルティパラメータを急激な残留還元のために最適化することで加速され、証明可能なリプシッツ境界勾配誤差が生じる。
挑戦的な協調航空輸送タスクにおいて、L2CはアイザックSIMを用いた高忠実度シミュレーションにおいて動的に実現可能な軌道を生成し、タイトな空間における安全な6-DoF負荷操作のために四重項構造を再構成し、チームサイズやタスク条件に頑健に適応し、最先端の手法よりも最大8.5%の高速な勾配計算を実現する。
関連論文リスト
- Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文 参考訳(メタデータ) (2024-07-26T17:55:23Z) - Accelerating Distributed Optimization: A Primal-Dual Perspective on Local Steps [4.471962177124311]
分散機械学習では、異なるデータを持つ複数のエージェントにまたがる線形変数が大きな課題となる。
本稿では,原変数上のラグランジアン収束を実現するフレームワークは,エージェント間通信を必要としないことを示す。
論文 参考訳(メタデータ) (2024-07-02T22:14:54Z) - ADMM Algorithms for Residual Network Training: Convergence Analysis and Parallel Implementation [5.3446906736406135]
残差ニューラルネットワークを訓練するための乗算器アルゴリズム(ADMM)のシリアルおよび並列近距離(線形化)の交互方向法を提案する。
提案アルゴリズムは反復点と目的関数の値の両方に対してR-線形(サブ線形)で収束することを示す。
実験により提案したADMMアルゴリズムの有効性を検証し, 高速で安定な収束, 性能向上, 高い計算効率を示した。
論文 参考訳(メタデータ) (2023-10-23T20:01:06Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。