論文の概要: Hierarchical Decentralized Stochastic Control for Cyber-Physical Systems
- arxiv url: http://arxiv.org/abs/2506.22971v2
- Date: Tue, 01 Jul 2025 09:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 13:52:14.047286
- Title: Hierarchical Decentralized Stochastic Control for Cyber-Physical Systems
- Title(参考訳): サイバー物理システムのための階層型分散確率制御
- Authors: Kesav Kaza, Ramachandran Anantharaman, Rahul Meshram,
- Abstract要約: 本稿では,サイバー物理システム制御のための2時間規模の階層型分散アーキテクチャを提案する。
アーキテクチャは、$N$独立サブプロセス、グローバルコントローラ、および$N$ローカルコントローラで構成される。
- 参考スコア(独自算出の注目度): 7.4546048948235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a two-timescale hierarchical decentralized architecture for control of Cyber-Physical Systems. The architecture consists of $N$ independent sub-processes, a global controller, and $N$ local controllers, each formulated as a Markov Decision Process (MDP). The global controller, operating at a slower timescale optimizes the infinite-horizon discounted cumulative reward under budget constraints. For the local controllers, operating at a faster timescale, we propose two different optimization frameworks, namely the COpt and FOpt. In the COpt framework, the local controller also optimizes an infinite-horizon MDP, while in the FOpt framework, the local controller optimizes a finite-horizon MDP. The FOpt framework mimics a federal structure, where the local controllers have more autonomy in their decision making. First, the existence of stationary deterministic optimal policies for both these frameworks is established. Then, various relationships between the two frameworks are studied, including a bound on the difference between the two optimal value functions. Additionally, sufficiency conditions are provided such that the two frameworks lead to the same optimal values.
- Abstract(参考訳): 本稿では,サイバー物理システム制御のための2時間規模の階層型分散アーキテクチャを提案する。
アーキテクチャは、$N$独立サブプロセス、グローバルコントローラ、$N$ローカルコントローラで構成され、それぞれがMarkov Decision Process (MDP)として定式化されている。
より遅い時間スケールで動作するグローバルコントローラは、予算制約下での無限水平割引累積報酬を最適化する。
より高速な時間スケールで動作するローカルコントローラに対しては、COptとFOptという2つの異なる最適化フレームワークを提案する。
COpt フレームワークでは、ローカルコントローラは無限水平 MDP を最適化する一方、FOpt フレームワークでは、ローカルコントローラは有限水平 MDP を最適化する。
FOptフレームワークは連邦政府の構造を模倣し、ローカルコントローラは意思決定においてより自律性を持つ。
まず、これらのフレームワークに定常的決定論的最適ポリシーが成立する。
次に、最適値関数間の差分を含む2つのフレームワーク間の様々な関係について研究する。
さらに、2つのフレームワークが同じ最適な値に導くように、十分条件が提供される。
関連論文リスト
- Mean-Field Control on Sparse Graphs: From Local Limits to GNNs via Neighborhood Distributions [5.081469534056712]
平均場制御(MFC)は、マルチエージェントシステムにおける次元性の呪いに対するスケーラブルな解決策を提供する。
我々は、大きなスパースグラフ上のMFCのための厳密なフレームワークを提案することによって、現実世界のネットワーク構造にギャップを埋める。
論文 参考訳(メタデータ) (2026-01-29T09:57:48Z) - Crystal Generation using the Fully Differentiable Pipeline and Latent Space Optimization [5.73357925322938]
本稿では,対称性条件付き変分オートエンコーダ (CVAE) と微分可能なSO(3)パワースペクトルを結合したフレームワークを提案する。
我々は,直接および潜在結晶表現のバッチワイズ最適化を実現するために,完全微分可能なパイプラインを実装している。
論文 参考訳(メタデータ) (2026-01-08T05:24:59Z) - QoS-Aware Hierarchical Reinforcement Learning for Joint Link Selection and Trajectory Optimization in SAGIN-Supported UAV Mobility Management [52.15690855486153]
宇宙空間統合ネットワーク (SAGIN) がユビキタスUAV接続を実現するための重要なアーキテクチャとして登場した。
本稿では,SAGINにおけるUAVモビリティ管理を制約付き多目的関節最適化問題として定式化する。
論文 参考訳(メタデータ) (2025-12-17T06:22:46Z) - Offline Goal-conditioned Reinforcement Learning with Quasimetric Representations [72.24831946301613]
目標条件強化学習(GCRL)へのアプローチは、しばしば学習状態表現を用いて目標達成ポリシーを抽出する。
本稿では,この2つのフレームワークを,準計量表現空間(三角不等式)の構造と適切な追加制約を用いて統合し,最適ゴール獲得を可能にする後続表現を学習する手法を提案する。
提案手法は,* 準距離パラメータ化を用いて,* 準距離* と * 準距離* を学習し,* 準距離* と *stochastic* の環境においても,* 準距離* を学習することができる。
論文 参考訳(メタデータ) (2025-09-24T18:45:32Z) - Parametrized Multi-Agent Routing via Deep Attention Models [1.0377683220196872]
パラメタライズドシーケンシャル意思決定のためのスケーラブルなディープラーニングフレームワーク(ParaSDM)を提案する。
この設定の重要なサブクラスは、複数のエージェントシステムが最適なルートと位置を同時に決定する必要がある施設と場所(FLPO)である。
これを解決するために、最大エントロピー原理(MEP)と、最短経路ネットワーク(SPN)と呼ばれるニューラルポリシーモデルを統合する。
論文 参考訳(メタデータ) (2025-07-30T02:46:45Z) - Benchmarking LLMs' Swarm intelligence [51.648605206159125]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。
NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。
これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。
提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文 参考訳(メタデータ) (2024-11-15T10:44:29Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Convex Optimization Approaches to Optimal Teleportation Fidelity in Linear Three-Party Networks [0.0]
本稿では,AliceとCharlieの2つの遠距離量子テレポーテーションの最大値について検討する。
LOCCの達成可能な忠実度値に上限を与える凸最適化問題を定式化する。
最大絡み合いで測定を行うことにより、Bobによって開始されるプロトコルが必ずしも最適ではないことを示す。
論文 参考訳(メタデータ) (2024-01-30T17:35:00Z) - Safe Neural Control for Non-Affine Control Systems with Differentiable
Control Barrier Functions [58.19198103790931]
本稿では,非アフィン制御系における安全クリティカル制御の問題に対処する。
制御バリア関数(CBF)を用いて,状態制約と制御制約の2次コストの最適化を2次プログラムのシーケンス(QP)にサブ最適化できることが示されている。
我々は,高次CBFをニューラル常微分方程式に基づく学習モデルに差分CBFとして組み込んで,非アフィン制御系の安全性を保証する。
論文 参考訳(メタデータ) (2023-09-06T05:35:48Z) - Optimization of Time-Dependent Decoherence Rates and Coherent Control
for a Qutrit System [77.34726150561087]
非コヒーレント制御は、特定の制御方法で時間に応じてデコヒーレンス率を決定する。
我々は、システムの最終状態$rho(T)$と与えられたターゲット状態$rho_rmターゲットとの間のヒルベルト・シュミットの重なりを最大化する問題を考察する。
論文 参考訳(メタデータ) (2023-08-08T01:28:50Z) - Extending Kernel PCA through Dualization: Sparsity, Robustness and Fast
Algorithms [14.964073009670194]
本稿では,凸関数の差分を二重化することによりカーネル主成分分析(KPCA)を再検討する。
これにより、KPCAを複数の目的関数に自然に拡張することができ、グラム行列の高価なSVDを避けるために効率的な勾配ベースのアルゴリズムが導かれる。
論文 参考訳(メタデータ) (2023-06-09T11:27:35Z) - Optimal State Manipulation for a Two-Qubit System Driven by Coherent and
Incoherent Controls [77.34726150561087]
2量子ビット量子系の最適制御には状態準備が重要である。
物理的に異なる2つのコヒーレント制御を利用し、ヒルベルト・シュミット目標密度行列を最適化する。
論文 参考訳(メタデータ) (2023-04-03T10:22:35Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - On optimization of coherent and incoherent controls for two-level
quantum systems [77.34726150561087]
本稿では、閉かつオープンな2レベル量子系の制御問題について考察する。
閉系の力学は、コヒーレント制御を持つシュリンガー方程式によって支配される。
開系の力学はゴリーニ=コサコフスキー=スダルシャン=リンドブラッドのマスター方程式によって支配される。
論文 参考訳(メタデータ) (2022-05-05T09:08:03Z) - Near-Optimal Distributed Linear-Quadratic Regulator for Networked
Systems [17.385606179429434]
本稿では,グラフ上の相互接続エージェントのシステムと,分散コントローラである$kappa$-distributed Controlについて検討する。
このコントローラはパラメータ$kappa$を使って分散化の度合いを調整できるので、分散化とパフォーマンスの関係を特徴づけることができる。
この結果から,分散制御はある程度の分散化でほぼ最適性能を達成でき,大規模ネットワークシステムにおいて効果的な制御アーキテクチャであることが明らかとなった。
論文 参考訳(メタデータ) (2022-04-12T06:31:26Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
深層強化学習(DRL)に基づくフレームワークを開発した。
DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Data-Driven Optimized Tracking Control Heuristic for MIMO Structures: A
Balance System Case Study [8.035375408614776]
PIDは2入力の2アウトプットバランスシステムで示される。
自己調整型非線形しきい値とニューラルネットワークを統合し、所望の過渡特性と定常特性を妥協する。
ニューラルネットワークは、客観的コスト関数のような重み付き導関数の最適化を訓練する。
論文 参考訳(メタデータ) (2021-04-01T02:00:20Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。