論文の概要: Population Dynamics Control with Partial Observations
- arxiv url: http://arxiv.org/abs/2502.14079v1
- Date: Wed, 19 Feb 2025 20:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:52.711331
- Title: Population Dynamics Control with Partial Observations
- Title(参考訳): 部分観察による人口動態制御
- Authors: Zhou Lu, Y. Jennifer Sun, Zhiyu Zhang,
- Abstract要約: オンラインの非確率的制御の観点から,人口動態の制御の問題について検討する。
我々の主な貢献は、線形動的コントローラを混合する自然なクラスに関して、最適$tildeO(sqrtT)$ regretを達成する新しいコントローラである。
- 参考スコア(独自算出の注目度): 4.753557469026313
- License:
- Abstract: We study the problem of controlling population dynamics, a class of linear dynamical systems evolving on the probability simplex, from the perspective of online non-stochastic control. While Golowich et.al. 2024 analyzed the fully observable setting, we focus on the more realistic, partially observable case, where only a low-dimensional representation of the state is accessible. In classical non-stochastic control, inputs are set as linear combinations of past disturbances. However, under partial observations, disturbances cannot be directly computed. To address this, Simchowitz et.al. 2020 proposed to construct oblivious signals, which are counterfactual observations with zero control, as a substitute. This raises several challenges in our setting: (1) how to construct oblivious signals under simplex constraints, where zero control is infeasible; (2) how to design a sufficiently expressive convex controller parameterization tailored to these signals; and (3) how to enforce the simplex constraint on control when projections may break the convexity of cost functions. Our main contribution is a new controller that achieves the optimal $\tilde{O}(\sqrt{T})$ regret with respect to a natural class of mixing linear dynamic controllers. To tackle these challenges, we construct signals based on hypothetical observations under a constant control adapted to the simplex domain, and introduce a new controller parameterization that approximates general control policies linear in non-oblivious observations. Furthermore, we employ a novel convex extension surrogate loss, inspired by Lattimore 2024, to bypass the projection-induced convexity issue.
- Abstract(参考訳): 確率的単純性に基づいて進化する線形力学系のクラスである集団力学の制御問題について,オンラインの非確率的制御の観点から検討する。
とGolowichらは言う。
2024年、完全に観測可能な状態を分析し、より現実的で部分的に観測可能な状態に焦点をあてた。
古典的非確率制御では、入力は過去の乱れの線形結合として設定される。
しかし、部分的な観測では、外乱を直接計算することはできない。
これを解決するため、Simchowitzら。
2020年は、代替として、ゼロ制御による反実的な観測である、観測不能な信号を構築することを提案した。
このことは,(1)ゼロ制御が実現不可能な単純な制約の下で,難解な信号を構築する方法,(2)これらの信号に合わせて十分に表現された凸制御パラメータ化を設計する方法,(3)投射がコスト関数の凸性を損なう場合の制御に単純な制約を強制する方法,といった課題を提起する。
我々の主な貢献は、線形動的コントローラを混合する自然なクラスに対して最適な $\tilde{O}(\sqrt{T})$ regret を達成する新しいコントローラである。
これらの課題に対処するために、我々は、単純な領域に適応した一定の制御の下で仮説的観測に基づく信号を構築し、非公開観測において線形な一般制御ポリシーを近似する新しい制御パラメータ化を導入する。
さらに,Lattimore 2024にインスパイアされた新規な凸拡張サロゲート損失を用いて,投影誘起凸性問題を回避した。
関連論文リスト
- Certified Robust Invariant Polytope Training in Neural Controlled ODEs [3.5481521547811976]
本研究では、フィードフォワードニューラルネットワークとしてパラメータ化された状態フィードバック制御器を用いて、外乱を受ける通常の微分方程式としてモデル化された非線形制御系について考察する。
本研究では,ポリトープ内の任意の軌道が乱れに関係なくポリトープ内に留まる,頑健な前方不変ポリトープを持つコントローラのトレーニングフレームワークを提案する。
我々は,手話制約の単純さによって,システム次元を50ドル以上の状態に拡張し,実行時に最先端のリャプノフに基づくサンプリングアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-02T13:55:26Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity [15.940861063732608]
直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
論文 参考訳(メタデータ) (2021-01-04T16:00:46Z) - Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning [41.24484153212002]
本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
論文 参考訳(メタデータ) (2020-04-06T15:50:31Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Regret Minimization in Partially Observable Linear Quadratic Control [91.43582419264763]
モデル力学が未知の先行性を持つ場合、部分的に観測可能な線形二次制御系における後悔の問題を考察する。
本稿では, 部分的に観測可能な線形二次制御のために, 後悔を分解し, 終端から終端までの後悔の上限を与える新しい方法を提案する。
論文 参考訳(メタデータ) (2020-01-31T22:35:08Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。