論文の概要: CP-MDP: A CANDECOMP-PARAFAC Decomposition Approach to Solve a Markov
Decision Process Multidimensional Problem
- arxiv url: http://arxiv.org/abs/2103.00331v1
- Date: Sat, 27 Feb 2021 21:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 01:50:10.617427
- Title: CP-MDP: A CANDECOMP-PARAFAC Decomposition Approach to Solve a Markov
Decision Process Multidimensional Problem
- Title(参考訳): CP-MDP: カンデコム・パラファック分解法によるマルコフ決定過程の多次元解法
- Authors: Daniela Kuinchtner, Afonso Sales, Felipe Meneguzzi
- Abstract要約: テンソル分解法を用いて多次元問題に対するMDPソルバを開発する。
われわれのアプローチは、メモリを大幅に減らして、より大きな問題を計算できることを示した。
- 参考スコア(独自算出の注目度): 21.79259092920586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov Decision Process (MDP) is the underlying model for optimal planning
for decision-theoretic agents in stochastic environments. Although much
research focuses on solving MDP problems both in tabular form or using factored
representations, none focused on tensor decomposition methods. Solving MDPs
using tensor algebra offers the prospect of leveraging advances in tensor-based
computations to further increase solver efficiency. In this paper, we develop
an MDP solver for a multidimensional problem using a tensor decomposition
method to compress the transition models and optimize the value iteration and
policy iteration algorithms. We empirically evaluate our approach against
tabular methods and show our approach can compute much larger problems using
substantially less memory, opening up new possibilities for tensor-based
approaches in stochastic planning
- Abstract(参考訳): マルコフ決定プロセス(MDP)は確率的環境における決定論的エージェントの最適計画の基盤となるモデルである。
MDPの問題を表形式でも因子表現を用いても解くことに焦点を当てる研究は多いが、テンソル分解法に焦点をあてる研究はなかった。
テンソル代数を用いたMDPの解法は、テンソルベースの計算の進歩を活用して解法効率をさらに向上する可能性をもたらす。
本稿では, テンソル分解法による多次元問題に対するMDP解法を開発し, 遷移モデルを圧縮し, 値反復とポリシー反復のアルゴリズムを最適化する。
実験的に表式手法に対するアプローチを評価し,統計的計画におけるテンソルベースのアプローチの新たな可能性を開拓し,メモリを大幅に削減してより大きな問題を計算できることを示した。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Feature selection in linear SVMs via hard cardinality constraint: a scalable SDP decomposition approach [3.7876216422538485]
線形支援ベクトルマシン(SVM)における組込み特徴選択問題について検討する。
濃度制約が適用され、完全に説明可能な選択モデルが導かれる。
問題は、濃度制約が存在するためNPハードである。
論文 参考訳(メタデータ) (2024-04-15T19:15:32Z) - Numerical Methods for Convex Multistage Stochastic Optimization [86.45244607927732]
最適化プログラミング(SP)、最適制御(SOC)、決定プロセス(MDP)に焦点を当てる。
凸多段マルコフ問題の解決の最近の進歩は、動的プログラミング方程式のコスト対ゴー関数の切断面近似に基づいている。
切削平面型法は多段階問題を多段階的に扱えるが、状態(決定)変数は比較的少ない。
論文 参考訳(メタデータ) (2023-03-28T01:30:40Z) - Multistage Stochastic Optimization via Kernels [3.7565501074323224]
我々は,多段階最適化問題に対する非パラメトリック,データ駆動,トラクタブルアプローチを開発した。
本稿では,提案手法が最適に近い平均性能で決定ルールを生成することを示す。
論文 参考訳(メタデータ) (2023-03-11T23:19:32Z) - Robust Markov Decision Processes without Model Estimation [32.16801929347098]
堅牢なMDPの適用には,2つの大きな障壁がある。
第一に、ほとんどの研究はモデルベース体制における堅牢なMDPを研究している。
第二に、先行研究は通常、最適な解を得るために強いオラクルを仮定する。
論文 参考訳(メタデータ) (2023-02-02T17:29:10Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。