論文の概要: Towards Model-Free LQR Control over Rate-Limited Channels
- arxiv url: http://arxiv.org/abs/2401.01258v1
- Date: Tue, 2 Jan 2024 15:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 13:37:27.921777
- Title: Towards Model-Free LQR Control over Rate-Limited Channels
- Title(参考訳): レート制限チャネルを用いたモデルフリーLQR制御に向けて
- Authors: Aritra Mitra, Lintao Ye and Vijay Gupta
- Abstract要約: 作業者エージェントが(LQRコストの)量子化ポリシー勾配を有限ビットレートのノイズレスチャネル上でサーバに送信する環境について検討する。
我々は、適応量子化グラディエントDescent (textttAQGD) という新しいアルゴリズムを提案し、ある有限しきい値ビットレートを超えると、textttAQGDは、グローバルな最適ポリシーへの指数的に高速な収束を保証することを証明した。
- 参考スコア(独自算出の注目度): 3.2688425993442696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the success of model-free methods for control design in many problem
settings, it is natural to ask how things will change if realistic
communication channels are utilized for the transmission of gradients or
policies. While the resulting problem has analogies with the formulations
studied under the rubric of networked control systems, the rich literature in
that area has typically assumed that the model of the system is known. As a
step towards bridging the fields of model-free control design and networked
control systems, we ask: \textit{Is it possible to solve basic control problems
- such as the linear quadratic regulator (LQR) problem - in a model-free manner
over a rate-limited channel?} Toward answering this question, we study a
setting where a worker agent transmits quantized policy gradients (of the LQR
cost) to a server over a noiseless channel with a finite bit-rate. We propose a
new algorithm titled Adaptively Quantized Gradient Descent (\texttt{AQGD}), and
prove that above a certain finite threshold bit-rate, \texttt{AQGD} guarantees
exponentially fast convergence to the globally optimal policy, with \textit{no
deterioration of the exponent relative to the unquantized setting}. More
generally, our approach reveals the benefits of adaptive quantization in
preserving fast linear convergence rates, and, as such, may be of independent
interest to the literature on compressed optimization.
- Abstract(参考訳): 多くの問題設定におけるモデルフリーな制御手法の成功を考えると、現実的な通信チャネルを勾配やポリシーの伝達に利用すれば、どう変わるのかを問うことは自然である。
結果として生じる問題は、ネットワーク制御システムのルーリックの下で研究される定式化と類似しているが、その領域の豊かな文献は一般にシステムのモデルが知られていると仮定している。
モデルフリー制御設計とネットワーク制御システムの橋渡しのステップとして, \textit{-線形二次レギュレータ(lqr)問題のような基本的な制御問題を,レート制限されたチャネル上でモデルフリーで解くことは可能か?
この質問に答えるべく、ワーカーエージェントが有限ビットレートのノイズのないチャンネルを介して(lqrコストの)定量化されたポリシー勾配をサーバに送信する設定について検討する。
そこで我々は,Adaptively Quantized Gradient Descent (\texttt{AQGD}) と題する新しいアルゴリズムを提案し,ある有限しきい値ビットレートを超えると,大域的最適ポリシーに対する指数関数的に高速な収束が保証され,指数関数が不等化設定に対して劣化することを証明する。
より一般に、我々の手法は高速線形収束率の保存における適応量子化の利点を明らかにし、圧縮最適化に関する文献には独立した関心を持つ可能性がある。
関連論文リスト
- Learning Resilient Radio Resource Management Policies with Graph Neural
Networks [124.89036526192268]
我々は、ユーザ当たりの最小容量制約でレジリエントな無線リソース管理問題を定式化する。
有限個のパラメータ集合を用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示す。
このような適応により,提案手法は平均レートと5番目のパーセンタイルレートとの良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2022-03-07T19:40:39Z) - Linear Stochastic Bandits over a Bit-Constrained Channel [37.01818450308119]
我々は,ビット制約チャネル上に線形バンドレットの新たな定式化を導入する。
サーバの目標は、未知のモデルパラメータの推定値に基づいてアクションを取ることで、累積的後悔を最小限に抑えることである。
未知のモデルが$d$-dimensionalである場合、チャネル容量は$O(d)$ bits suffices で順序最適後悔を実現する。
論文 参考訳(メタデータ) (2022-03-02T15:54:03Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
深層強化学習(DRL)に基づくフレームワークを開発した。
DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Control of Stochastic Quantum Dynamics with Differentiable Programming [0.0]
微分可能プログラミングに基づく制御スキームの自動設計のためのフレームワークを提案する。
このアプローチを、ホモジエン検出を受けるクビットの状態準備と安定化に適用する。
その結果、信号と雑音の比が低いにもかかわらず、平均忠実度が約85%の目標状態へのキュービットの準備と安定化をコントローラに教えることができる。
論文 参考訳(メタデータ) (2021-01-04T19:00:03Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Chance-Constrained Control with Lexicographic Deep Reinforcement
Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。
有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文 参考訳(メタデータ) (2020-10-19T13:09:14Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Closed-loop Parameter Identification of Linear Dynamical Systems through
the Lens of Feedback Channel Coding Theory [0.0]
本稿では,ガウス過程雑音を伴う線形スカラー系の閉ループ同定の問題について考察する。
学習速度は,対応するAWGNチャネルの容量によって基本的に上界にあることを示す。
フィードバックポリシの最適設計は依然として難しいが、上限が達成される条件を導出する。
論文 参考訳(メタデータ) (2020-03-27T17:30:10Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。