論文の概要: Mean-Field Generalisation Bounds for Learning Controls in Stochastic Environments
- arxiv url: http://arxiv.org/abs/2508.16001v1
- Date: Thu, 21 Aug 2025 23:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.206506
- Title: Mean-Field Generalisation Bounds for Learning Controls in Stochastic Environments
- Title(参考訳): 確率環境における学習制御のための平均場一般化境界
- Authors: Boris Baros, Samuel N. Cohen, Christoph Reisinger,
- Abstract要約: 古典的な離散時間制御問題の定式化について考察する。
提案手法は,システムの大部分を制御できないような,そのような問題の自然構造を利用する。
- 参考スコア(独自算出の注目度): 2.8369308760896086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider a data-driven formulation of the classical discrete-time stochastic control problem. Our approach exploits the natural structure of many such problems, in which significant portions of the system are uncontrolled. Employing the dynamic programming principle and the mean-field interpretation of single-hidden layer neural networks, we formulate the control problem as a series of infinite-dimensional minimisation problems. When regularised carefully, we provide practically verifiable assumptions for non-asymptotic bounds on the generalisation error achieved by the minimisers to this problem, thus ensuring stability in overparametrised settings, for controls learned using finitely many observations. We explore connections to the traditional noisy stochastic gradient descent algorithm, and subsequently show promising numerical results for some classic control problems.
- Abstract(参考訳): 古典的な離散時間確率制御問題の定式化について考察する。
提案手法は,システムの大部分を制御できないような,そのような問題の自然構造を利用する。
動的プログラミング原理と単一隠れ層ニューラルネットワークの平均場解釈を用いて、制御問題を無限次元最小化問題として定式化する。
規則化を慎重に行うと、この問題に対してミニミザーが達成した一般化誤差の非漸近的境界に対する事実上検証可能な仮定を提供し、有限個の観測値を用いて学習した制御に対して、過度なパラメータ設定の安定性を確保する。
従来の雑音性確率勾配勾配アルゴリズムとの接続を探索し、古典的な制御問題に対して有望な数値結果を示す。
関連論文リスト
- Physics-informed Gaussian Processes as Linear Model Predictive Controller [5.89889361990138]
追従問題における線形時間不変系を制御する新しいアルゴリズムを提案する。
最適制御問題に対して,制御器がオープンループ安定性を満たすことを理論的に示す。
論文 参考訳(メタデータ) (2024-12-02T15:37:37Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Physics-Informed Kernel Embeddings: Integrating Prior System Knowledge
with Data-Driven Control [22.549914935697366]
カーネル埋め込みを用いたデータ駆動制御アルゴリズムに事前知識を組み込む手法を提案する。
提案手法は,カーネル学習問題におけるバイアス項として,システムダイナミクスの事前知識を取り入れたものである。
純粋にデータ駆動ベースライン上でのサンプル効率の向上と,我々のアプローチのアウト・オブ・サンプル一般化を実証する。
論文 参考訳(メタデータ) (2023-01-09T18:35:32Z) - Finite-Time Analysis of Natural Actor-Critic for POMDPs [29.978816372127085]
部分観測されたマルコフ決定過程(POMDP)に対する強化学習問題について考察する。
本稿では、ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法について考察する。
より大きなブロックサイズを用いて,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
論文 参考訳(メタデータ) (2022-02-20T07:42:00Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。