Fugu-MT 論文翻訳(概要): A Simulation-Free Deep Learning Approach to Stochastic Optimal Control

論文の概要: A Simulation-Free Deep Learning Approach to Stochastic Optimal Control

arxiv url: http://arxiv.org/abs/2410.05163v2
Date: Tue, 8 Oct 2024 17:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 23:58:57.670510
Title: A Simulation-Free Deep Learning Approach to Stochastic Optimal Control
Title（参考訳）: 確率的最適制御のためのシミュレーション自由深層学習手法
Authors: Mengjian Hua, Matthieu Laurière, Eric Vanden-Eijnden,
Abstract要約: 最適制御(SOC)における一般問題の解法のためのシミュレーションフリーアルゴリズムを提案する。既存の手法とは異なり、我々の手法は随伴問題の解を必要としない。
参考スコア（独自算出の注目度）: 12.699529713351287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr\"odinger-F\"ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.
Abstract（参考訳）: 本稿では,確率的最適制御(SOC)における一般問題の解を求めるシミュレーションフリーアルゴリズムを提案する。既存の方法とは異なり、我々の手法は随伴問題の解を必要としないが、むしろジルサノフの定理を利用して、政治におけるSOC目標の勾配を直接計算する。これにより、ニューラルネットワークによってパラメータ化される制御ポリシーの最適化を高速化できる。これは、ニューラルネットワークがニューラルネットワークで使われる確率微分方程式(SDE)を通して、高価なバックプロパゲーションステップを完全に回避できるためである。特に、SOC問題を高次元および長時間の地平線で解くことができる。我々は、標準的な確率的最適制御問題、Schr\"odinger-F\"ollmerプロセスの構築による正規化されていない分布からのサンプリング、事前学習された拡散モデルの微調整など、様々な分野のアプリケーションにおけるアプローチの有効性を実証する。いずれの場合も,本手法は計算時間とメモリ効率の両方において既存手法より優れていることを示す。

関連論文リスト

Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Go With the Flow: Fast Diffusion for Gaussian Mixture Models [13.03355083378673]
Schr"odinger Bridges (SB) は、適切なコスト関数を最小化しながら、有限時間で与えられた初期分布を他の最終状態に分配する拡散過程である。本稿では,ある分布から別の分布へシステムをステアリングするための一組のSBポリシーの潜在メトリゼーションを提案する。オートエンコーダの空間における画像から画像への変換のような低次元問題におけるこのアプローチの可能性を示す。
論文参考訳（メタデータ） (2024-12-12T08:40:22Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process [11.01014302314467]
我々は、ディープニューラルネットワークパラメータ化微分方程式(SDE)の最適化に焦点をあてる。我々は、SDEが関連する摂動過程と整合するように制約することを提案する。我々のフレームワークは、SDEを効果的かつ効率的に訓練するためのポリシー勾配法を多目的に選択する。
論文参考訳（メタデータ） (2024-03-07T02:24:45Z)
Smoothing Methods for Automatic Differentiation Across Conditional Branches [0.0]
スムース解釈(SI)は、プログラムの出力とガウス核との畳み込みを近似し、原理的にその出力を滑らかにする。 SIと自動微分(AD)を組み合わせることで、スムーズなプログラムの勾配を効率的に計算する。本稿では,ADとサンプリングを組み合わせたスムーズなプログラムの勾配を推定することにより,基礎となる仮定を回避する新しいモンテカルロ推定法を提案する。
論文参考訳（メタデータ） (2023-10-05T15:08:37Z)
An Optimization-based Deep Equilibrium Model for Hyperspectral Image Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文参考訳（メタデータ） (2023-06-10T08:25:16Z)
Multistage Stochastic Optimization via Kernels [3.7565501074323224]
我々は,多段階最適化問題に対する非パラメトリック,データ駆動,トラクタブルアプローチを開発した。本稿では,提案手法が最適に近い平均性能で決定ルールを生成することを示す。
論文参考訳（メタデータ） (2023-03-11T23:19:32Z)
A deep learning method for solving stochastic optimal control problems driven by fully-coupled FBSDEs [1.0703175070560689]
最初にこの問題をStackelberg微分ゲーム問題(リーダー-フォロワー問題)に変換する。ユーティリティーモデルによる投資消費問題の2つの例を計算した。その結果,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-04-12T13:31:19Z)
Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文参考訳（メタデータ） (2021-07-23T13:43:34Z)
Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-07T16:43:07Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文参考訳（メタデータ） (2020-02-17T20:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。