論文の概要: Separation is Optimal for LQR under Intermittent Feedback
- arxiv url: http://arxiv.org/abs/2603.27833v2
- Date: Wed, 15 Apr 2026 17:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.285994
- Title: Separation is Optimal for LQR under Intermittent Feedback
- Title(参考訳): 間欠的フィードバック下でのLQRの分離は最適である
- Authors: Abdullah Y. Etcibasi, C. Emre Koksal, Eylem Ekici,
- Abstract要約: まず、分離原理が対称分布を持つゼロ平均障害の下での通信制約付きLQR問題に対して成り立つことを証明した。
次に、最新の更新以来、最適スケジューリングポリシーは蓄積された乱に対する対称しきい値規則であることを示す。
- 参考スコア(独自算出の注目度): 3.688414964949228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we first prove that the separation principle holds for communication-constrained LQR problems under i.i.d. zero-mean disturbances with a symmetric distribution. We then solve the dynamic programming problem and show that the optimal scheduling policy is a symmetric threshold rule on the accumulated disturbance since the most recent update, while the optimal controller is a discounted linear feedback law independent of the scheduling policy.
- Abstract(参考訳): この研究において、分離原理が対称分布を持つゼロ平均障害の下での通信制約付きLQR問題に対して成り立つことを最初に証明する。
次に、動的プログラミング問題を解き、最新の更新以来、最適スケジューリングポリシーは蓄積された乱に対する対称しきい値規則であり、最適コントローラはスケジューリングポリシーとは無関係に割引された線形フィードバック法則であることを示す。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Nonconvex Optimization Framework for Group-Sparse Feedback Linear-Quadratic Optimal Control: Non-Penalty Approach [3.585860184121598]
固定通信(DFT-LQ)を用いた分散線形四元数問題と下位次次次フィードバック問題について検討した。
論文 参考訳(メタデータ) (2025-07-26T09:50:21Z) - Regret Analysis of Policy Optimization over Submanifolds for Linearly Constrained Online LQG [10.32831487961828]
線形に制約された安定化コントローラの多様体上でのオンライン線形二次ガウス問題(LQG)について検討する。
コスト関数列の2次情報に基づいてオンラインコントローラをオンザフライで生成するオンラインNewton on manifold(ONM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-13T14:06:18Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Augmented Lagrangian Methods for Time-varying Constrained Online Convex
Optimization [1.662966122370634]
オンライン凸最適化(OCO)と時間的損失と制約関数について検討する。
まず,時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法(MALM)のクラスを開発する。
提案アルゴリズムの効率性を示すために, 制約OCOのいくつかの例について数値計算を行った。
論文 参考訳(メタデータ) (2022-05-19T14:03:25Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。