Fugu-MT 論文翻訳(概要): Separation is Optimal for LQR under Intermittent Feedback

論文の概要: Separation is Optimal for LQR under Intermittent Feedback

arxiv url: http://arxiv.org/abs/2603.27833v2
Date: Wed, 15 Apr 2026 17:02:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-19 19:09:11.285994
Title: Separation is Optimal for LQR under Intermittent Feedback
Title（参考訳）: 間欠的フィードバック下でのLQRの分離は最適である
Authors: Abdullah Y. Etcibasi, C. Emre Koksal, Eylem Ekici,
Abstract要約: まず、分離原理が対称分布を持つゼロ平均障害の下での通信制約付きLQR問題に対して成り立つことを証明した。次に、最新の更新以来、最適スケジューリングポリシーは蓄積された乱に対する対称しきい値規則であることを示す。
参考スコア（独自算出の注目度）: 3.688414964949228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we first prove that the separation principle holds for communication-constrained LQR problems under i.i.d. zero-mean disturbances with a symmetric distribution. We then solve the dynamic programming problem and show that the optimal scheduling policy is a symmetric threshold rule on the accumulated disturbance since the most recent update, while the optimal controller is a discounted linear feedback law independent of the scheduling policy.
Abstract（参考訳）: この研究において、分離原理が対称分布を持つゼロ平均障害の下での通信制約付きLQR問題に対して成り立つことを最初に証明する。次に、動的プログラミング問題を解き、最新の更新以来、最適スケジューリングポリシーは蓄積された乱に対する対称しきい値規則であり、最適コントローラはスケジューリングポリシーとは無関係に割引された線形フィードバック法則であることを示す。

関連論文リスト

Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文参考訳（メタデータ） (2026-02-24T05:32:03Z)
Nonconvex Optimization Framework for Group-Sparse Feedback Linear-Quadratic Optimal Control: Non-Penalty Approach [3.585860184121598]
固定通信(DFT-LQ)を用いた分散線形四元数問題と下位次次次フィードバック問題について検討した。
論文参考訳（メタデータ） (2025-07-26T09:50:21Z)
Regret Analysis of Policy Optimization over Submanifolds for Linearly Constrained Online LQG [10.32831487961828]
線形に制約された安定化コントローラの多様体上でのオンライン線形二次ガウス問題(LQG)について検討する。コスト関数列の2次情報に基づいてオンラインコントローラをオンザフライで生成するオンラインNewton on manifold(ONM)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-13T14:06:18Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Augmented Lagrangian Methods for Time-varying Constrained Online Convex Optimization [1.662966122370634]
オンライン凸最適化(OCO)と時間的損失と制約関数について検討する。まず,時間変動関数制約OCOのためのモデルベース拡張ラグランジアン法(MALM)のクラスを開発する。提案アルゴリズムの効率性を示すために, 制約OCOのいくつかの例について数値計算を行った。
論文参考訳（メタデータ） (2022-05-19T14:03:25Z)
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文参考訳（メタデータ） (2022-04-19T15:55:47Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
Convergence Guarantees of Policy Optimization Methods for Markovian Jump Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。我々の理論を支持する一例を示す。
論文参考訳（メタデータ） (2020-02-10T21:13:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。