論文の概要: Drift Control of High-Dimensional RBM: A Computational Method Based on
Neural Networks
- arxiv url: http://arxiv.org/abs/2309.11651v1
- Date: Wed, 20 Sep 2023 21:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:44:42.997662
- Title: Drift Control of High-Dimensional RBM: A Computational Method Based on
Neural Networks
- Title(参考訳): 高次元RBMのドリフト制御:ニューラルネットワークに基づく計算法
- Authors: Baris Ata, J. Michael Harrison, Nian Si
- Abstract要約: 我々は、ディープニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し、解説する。
これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。
- 参考スコア(独自算出の注目度): 5.102770724328496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by applications in queueing theory, we consider a stochastic
control problem whose state space is the $d$-dimensional positive orthant. The
controlled process $Z$ evolves as a reflected Brownian motion whose covariance
matrix is exogenously specified, as are its directions of reflection from the
orthant's boundary surfaces. A system manager chooses a drift vector
$\theta(t)$ at each time $t$ based on the history of $Z$, and the cost rate at
time $t$ depends on both $Z(t)$ and $\theta(t)$. In our initial problem
formulation, the objective is to minimize expected discounted cost over an
infinite planning horizon, after which we treat the corresponding ergodic
control problem. Extending earlier work by Han et al. (Proceedings of the
National Academy of Sciences, 2018, 8505-8510), we develop and illustrate a
simulation-based computational method that relies heavily on deep neural
network technology. For test problems studied thus far, our method is accurate
to within a fraction of one percent, and is computationally feasible in
dimensions up to at least $d=30$.
- Abstract(参考訳): 待ち行列理論の応用に動機づけられ、状態空間が$d$-dimensional positive orthantである確率的制御問題を考える。
制御過程 $z$ は、オーサントの境界面からの反射方向と同様に、共分散行列が外在的に特定される反射ブラウン運動として発展する。
システムマネージャは、各時刻に$z$の履歴に基づいて$t$のドリフトベクトル$\theta(t)$を選択し、その時点のコストは$z(t)$と$\theta(t)$の両方に依存する。
最初の問題定式化では、無限の計画地平線上で期待される割引コストを最小化し、その後、対応するエルゴード制御問題を扱う。
han et al. (proceedings of the national academy of sciences, 2018, 8505-8510) による初期の研究を拡張し、深層ニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し、解説する。
これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。
関連論文リスト
- Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent [83.85536329832722]
勾配勾配降下(SGD)は,$d$次元ハイパーキューブ上の$k$パリティ問題を効率的に解くことができることを示す。
次に、SGDでトレーニングされたニューラルネットワークがどのようにして、小さな統計的エラーで$k$-parityの問題を解決するかを実証する。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Optimization of Time-Dependent Decoherence Rates and Coherent Control
for a Qutrit System [77.34726150561087]
非コヒーレント制御は、特定の制御方法で時間に応じてデコヒーレンス率を決定する。
我々は、システムの最終状態$rho(T)$と与えられたターゲット状態$rho_rmターゲットとの間のヒルベルト・シュミットの重なりを最大化する問題を考察する。
論文 参考訳(メタデータ) (2023-08-08T01:28:50Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Learning to extrapolate using continued fractions: Predicting the
critical temperature of superconductor materials [5.905364646955811]
人工知能(AI)と機械学習(ML)の分野では、未知のターゲット関数 $y=f(mathbfx)$ の近似が共通の目的である。
トレーニングセットとして$S$を参照し、新しいインスタンス$mathbfx$に対して、このターゲット関数を効果的に近似できる低複雑さの数学的モデルを特定することを目的としている。
論文 参考訳(メタデータ) (2020-11-27T04:57:40Z) - Geometric Exploration for Online Control [38.87811800375421]
本研究では,一般的な凸コスト下での線形力学系の制御について検討する。
目的は、障害フィードバックコントローラのクラスに対する後悔を最小限にすることである。
論文 参考訳(メタデータ) (2020-10-25T18:11:28Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。