論文の概要: MDP modeling for multi-stage stochastic programs
- arxiv url: http://arxiv.org/abs/2509.22981v1
- Date: Fri, 26 Sep 2025 22:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.963419
- Title: MDP modeling for multi-stage stochastic programs
- Title(参考訳): 多段階確率プログラムのためのMDPモデリング
- Authors: David P. Morton, Oscar Dowson, Bernardo K. Pagnoncelli,
- Abstract要約: このクラスは、連続状態とアクション空間を持つ構造化マルコフ決定プロセス(MDP)を含む。
一段階の遷移確率に対する決定依存の不確実性を含むようにポリシーグラフを拡張します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a class of multi-stage stochastic programs, which incorporate modeling features from Markov decision processes (MDPs). This class includes structured MDPs with continuous state and action spaces. We extend policy graphs to include decision-dependent uncertainty for one-step transition probabilities as well as a limited form of statistical learning. We focus on the expressiveness of our modeling approach, illustrating ideas with a series of examples of increasing complexity. As a solution method, we develop new variants of stochastic dual dynamic programming, including approximations to handle non-convexities.
- Abstract(参考訳): マルコフ決定過程(MDP)のモデリング機能を組み込んだ多段階確率プログラムのクラスについて検討する。
このクラスは、連続状態とアクション空間を持つ構造化MDPを含む。
政策グラフを拡張して、一段階の遷移確率に対する決定依存の不確実性と、統計的学習の限られた形態を含む。
モデリングアプローチの表現性に注目し、複雑さを増す一連の例でアイデアを描きます。
解法として、非凸性を扱う近似を含む確率的双対動的プログラミングの新しい変種を開発する。
関連論文リスト
- Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Tasks Makyth Models: Machine Learning Assisted Surrogates for Tipping
Points [0.0]
本稿では,複雑なシステムの創発的挙動におけるヒント点を検出するための機械学習支援フレームワークを提案する。
我々は、異なるスケールで創発的ダイナミクスのための縮小次モデルを構築した。
異なるモデルの使用と、それらを学ぶための努力とは対照的です。
論文 参考訳(メタデータ) (2023-09-25T17:58:23Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Numerical Methods for Convex Multistage Stochastic Optimization [86.45244607927732]
最適化プログラミング(SP)、最適制御(SOC)、決定プロセス(MDP)に焦点を当てる。
凸多段マルコフ問題の解決の最近の進歩は、動的プログラミング方程式のコスト対ゴー関数の切断面近似に基づいている。
切削平面型法は多段階問題を多段階的に扱えるが、状態(決定)変数は比較的少ない。
論文 参考訳(メタデータ) (2023-03-28T01:30:40Z) - SDYN-GANs: Adversarial Learning Methods for Multistep Generative Models
for General Order Stochastic Dynamics [20.292913470013744]
我々は,安定な$m$ステップの数値軌道に基づく生成モデルクラスを用いたGAN(Generative Adversarial Networks)を構築した。
物理的システムをモデリングして、力の法則、減衰係数、ノイズ関連パラメータを学習する方法を示す。
論文 参考訳(メタデータ) (2023-02-07T18:28:09Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - A Class of Two-Timescale Stochastic EM Algorithms for Nonconvex Latent
Variable Models [21.13011760066456]
expectation-Maximization (EM)アルゴリズムは、変数モデルを学習するための一般的な選択肢である。
本稿では,Two-Time Methodsと呼ばれる手法の一般クラスを提案する。
論文 参考訳(メタデータ) (2022-03-18T22:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。