論文の概要: Decomposability and Parallel Computation of Multi-Agent LQR
- arxiv url: http://arxiv.org/abs/2010.08615v2
- Date: Sun, 7 Mar 2021 23:16:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:48:37.397661
- Title: Decomposability and Parallel Computation of Multi-Agent LQR
- Title(参考訳): マルチエージェントlqrのデコンポーザビリティと並列計算
- Authors: Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty
- Abstract要約: 連続時間線形MASにおける線形レギュレータ(LQR)設計のための並列RLスキームを提案する。
我々は、MAS が均質であれば、この分解は閉ループ最適性を保持することを示す。
提案手法は,LQRコストの累積価値を損なうことなく,学習の大幅な高速化を保証できる。
- 参考スコア(独自算出の注目度): 19.710361049812608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individual agents in a multi-agent system (MAS) may have decoupled open-loop
dynamics, but a cooperative control objective usually results in coupled
closed-loop dynamics thereby making the control design computationally
expensive. The computation time becomes even higher when a learning strategy
such as reinforcement learning (RL) needs to be applied to deal with the
situation when the agents dynamics are not known. To resolve this problem, we
propose a parallel RL scheme for a linear quadratic regulator (LQR) design in a
continuous-time linear MAS. The idea is to exploit the structural properties of
two graphs embedded in the $Q$ and $R$ weighting matrices in the LQR objective
to define an orthogonal transformation that can convert the original LQR design
to multiple decoupled smaller-sized LQR designs. We show that if the MAS is
homogeneous then this decomposition retains closed-loop optimality. Conditions
for decomposability, an algorithm for constructing the transformation matrix, a
parallel RL algorithm, and robustness analysis when the design is applied to
non-homogeneous MAS are presented. Simulations show that the proposed approach
can guarantee significant speed-up in learning without any loss in the
cumulative value of the LQR cost.
- Abstract(参考訳): マルチエージェントシステム(mas)内の個々のエージェントは、オープンループダイナミクスを分離するかもしれないが、協調制御の目的は通常、結合したクローズドループダイナミクスをもたらすので、制御設計は計算コストがかかる。
エージェントのダイナミクスが分かっていない状況に対処するために強化学習(rl)のような学習戦略を適用する必要がある場合、計算時間がさらに高くなる。
この問題を解決するために、連続時間線形MASにおける線形二次レギュレータ(LQR)設計のための並列RLスキームを提案する。
この考え方は、LQRの目的に、$Q$と$R$の重み付け行列に埋め込まれた2つのグラフの構造特性を利用して、元のLQR設計を複数の分離された小さなLQR設計に変換する直交変換を定義することである。
我々は、MAS が均質であれば、この分解は閉ループ最適性を保持することを示す。
非均質なmasに適用した場合の分解性条件、変換行列を構成するアルゴリズム、並列rlアルゴリズム、ロバスト性解析について述べる。
シミュレーションにより,本手法はlqrコストの累積値を失うことなく,学習の大幅な高速化を保証できることが示された。
関連論文リスト
- Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文 参考訳(メタデータ) (2024-07-26T17:55:23Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z) - Reinforcement Learning of Structured Control for Linear Systems with
Unknown State Matrix [0.0]
十分な安定性と性能保証と合わせて強化学習(RL)のアイデアを提示する。
このフレームワークによって実現される特別な制御構造は、多くの大規模サイバー物理システムで必要とされる分散学習制御である。
論文 参考訳(メタデータ) (2020-11-02T17:04:34Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Competitive Mirror Descent [67.31015611281225]
制約のある競合最適化には、制約の対象となる競合する目的を最小化しようとする複数のエージェントが含まれる。
本稿では, 競合ミラー降下法(CMD)を提案する。
特別の場合として、正の円錐上の問題に対する新しい競合乗法重みアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-06-17T22:11:35Z) - Reduced-Dimensional Reinforcement Learning Control using Singular
Perturbation Approximations [9.136645265350284]
本稿では,線形時間不変特異摂動(SP)システムに対するモデルフリー,低次元強化学習に基づく最適制御設計を提案する。
まず、未知の状態と入力行列を持つ汎用SPシステムに対して、状態フィードバックと出力フィードバックに基づくRL制御設計を提案する。
両設計をクラスタ化マルチエージェントコンセンサスネットワークに拡張し,SP特性をクラスタリングにより反映する。
論文 参考訳(メタデータ) (2020-04-29T22:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。