論文の概要: Learning to reflect: A unifying approach for data-driven stochastic
control strategies
- arxiv url: http://arxiv.org/abs/2104.11496v1
- Date: Fri, 23 Apr 2021 09:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 12:54:55.389988
- Title: Learning to reflect: A unifying approach for data-driven stochastic
control strategies
- Title(参考訳): リフレクションへの学習:データ駆動確率的制御戦略の統一的アプローチ
- Authors: S\"oren Christensen, Claudia Strauch and Lukas Trottner
- Abstract要約: 関連特異制御問題に対する効率的な戦略の開発は、基本的に速度最適推定器の発見に還元できることを示す。
指数的な$beta$-mixing特性を両シナリオの共通要素として利用して収束解析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic optimal control problems have a long tradition in applied
probability, with the questions addressed being of high relevance in a
multitude of fields. Even though theoretical solutions are well understood in
many scenarios, their practicability suffers from the assumption of known
dynamics of the underlying stochastic process, raising the statistical
challenge of developing purely data-driven strategies. For the mathematically
separated classes of continuous diffusion processes and L\'evy processes, we
show that developing efficient strategies for related singular stochastic
control problems can essentially be reduced to finding rate-optimal estimators
with respect to the sup-norm risk of objects associated to the invariant
distribution of ergodic processes which determine the theoretical solution of
the control problem. From a statistical perspective, we exploit the exponential
$\beta$-mixing property as the common factor of both scenarios to drive the
convergence analysis, indicating that relying on general stability properties
of Markov processes is a sufficiently powerful and flexible approach to treat
complex applications requiring statistical methods. We show moreover that in
the L\'evy case $-$ even though per se jump processes are more difficult to
handle both in statistics and control theory $-$ a fully data-driven strategy
with regret of significantly better order than in the diffusion case can be
constructed.
- Abstract(参考訳): 確率的最適制御問題は応用確率において長い伝統を持ち、多くの分野において高い関連性を持つ問題である。
理論解は多くのシナリオでよく理解されているが、その実践性は基礎となる確率過程の既知の力学の仮定に悩まされ、純粋にデータ駆動戦略を開発するという統計的課題を提起する。
連続拡散過程とL\'evy過程の数学的に分離されたクラスについて、関連する特異確率制御問題に対する効率的な戦略の開発は、制御問題の理論的解を決定するエルゴード過程の不変分布に関連するオブジェクトの超ノルムリスクに対する速度最適推定器の発見に本質的に還元できることを示す。
統計的観点からは、指数的$\beta$-mixing特性を両シナリオの共通因子として利用して収束解析を駆動し、マルコフ過程の一般的な安定性特性に依存することは、統計的方法を必要とする複雑なアプリケーションを扱うための十分強力で柔軟なアプローチであることを示す。
さらに、L\'evyの場合、各ジャンププロセスが統計学と制御理論の両方で扱うのが困難であるにもかかわらず、$-$は拡散の場合よりもはるかに優れた順序を後悔する完全なデータ駆動戦略であることを示す。
関連論文リスト
- Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [61.580419063416734]
最近の構造化学習手法のストリームは、様々な最適化問題に対する技術の実践的状態を改善している。
鍵となる考え方は、インスタンスを別々に扱うのではなく、インスタンス上の統計分布を利用することだ。
本稿では,最適化を容易にし,一般化誤差を改善するポリシを摂動することでリスクを円滑にする手法について検討する。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Borrowing Strength in Distributionally Robust Optimization via Hierarchical Dirichlet Processes [35.53901341372684]
提案手法は正規化推定,分布的ロバストな最適化,階層ベイズモデリングを統一する。
階層的ディリクレプロセス(HDP)を用いることで、マルチソースデータを効果的に処理する。
数値実験により,予測精度とパラメータ推定精度の両方の改善と安定化におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2024-05-21T19:03:09Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Variational Annealing on Graphs for Combinatorial Optimization [7.378582040635655]
解変数間の統計的依存関係を捉える自己回帰的手法は,多くのCO問題に対して優れた性能を示すことを示す。
本稿では,一組の解変数の構成を単一トークンで表すサブグラフトークン化を提案する。
論文 参考訳(メタデータ) (2023-11-23T18:56:51Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Statistical optimality and stability of tangent transform algorithms in
logit models [6.9827388859232045]
我々は,データ生成過程の条件として,ロジカルオプティマによって引き起こされるリスクに対して,非漸近上界を導出する。
特に,データ生成過程の仮定なしにアルゴリズムの局所的変動を確立する。
我々は,大域収束が得られる半直交設計を含む特別な場合について検討する。
論文 参考訳(メタデータ) (2020-10-25T05:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。