論文の概要: Recurrent Sum-Product-Max Networks for Decision Making in
Perfectly-Observed Environments
- arxiv url: http://arxiv.org/abs/2006.07300v1
- Date: Fri, 12 Jun 2020 16:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:22:09.256729
- Title: Recurrent Sum-Product-Max Networks for Decision Making in
Perfectly-Observed Environments
- Title(参考訳): 完全観測環境における決定のための繰り返しSum-Product-Maxネットワーク
- Authors: Hari Teja Tatavarti, Prashant Doshi, Layton Hayes
- Abstract要約: 本稿では、意思決定データから学習し、時間とともにモデル化するRSPMN(Sum-product-max Network)を提案する。
RSPMNは、データ駆動であり、主にトラクタブルであるという点で、総生産ネットワークの利点を継承し、シーケンシャルな問題にも適している。
逐次決定データセットのテストベッドで学習したRSPMNが、完全に観測された領域で最適に近いMEUとポリシーを生成することを実証する。
- 参考スコア(独自算出の注目度): 12.225164387970166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent investigations into sum-product-max networks (SPMN) that generalize
sum-product networks (SPN) offer a data-driven alternative for decision making,
which has predominantly relied on handcrafted models. SPMNs computationally
represent a probabilistic decision-making problem whose solution scales
linearly in the size of the network. However, SPMNs are not well suited for
sequential decision making over multiple time steps. In this paper, we present
recurrent SPMNs (RSPMN) that learn from and model decision-making data over
time. RSPMNs utilize a template network that is unfolded as needed depending on
the length of the data sequence. This is significant as RSPMNs not only inherit
the benefits of SPMNs in being data driven and mostly tractable, they are also
well suited for sequential problems. We establish conditions on the template
network, which guarantee that the resulting SPMN is valid, and present a
structure learning algorithm to learn a sound template network. We demonstrate
that the RSPMNs learned on a testbed of sequential decision-making data sets
generate MEUs and policies that are close to the optimal on perfectly-observed
domains. They easily improve on a recent batch-constrained reinforcement
learning method, which is important because RSPMNs offer a new model-based
approach to offline reinforcement learning.
- Abstract(参考訳): sum-product-max networks (spmn) に関する最近の研究は、spn (sum-product network) を一般化し、意思決定のためのデータ駆動の代替手段を提供している。
spmnは、解がネットワークのサイズで線形にスケールする確率的意思決定問題を表す。
しかし、spmnは複数の時間ステップにわたる逐次的意思決定にはあまり適していない。
本稿では,時間とともに意思決定データから学習しモデル化するリカレントspmn(recurrent spmns)を提案する。
RSPMNは、データシーケンスの長さに応じて必要に応じて展開されるテンプレートネットワークを利用する。
RSPMNはSPMNの利点を継承するだけでなく、データ駆動であり、主にトラクタブルであるため、シーケンシャルな問題にも適している。
我々は,SPMNが有効であることを保証したテンプレートネットワーク上で条件を確立し,音声テンプレートネットワークを学習するための構造学習アルゴリズムを提案する。
逐次決定データセットのテストベッドで学習したRSPMNが、完全観測領域上で最適に近いMEUとポリシーを生成することを示した。
RSPMNは、オフライン強化学習に新しいモデルベースアプローチを提供するので、最近のバッチ制約強化学習法では容易に改善できる。
関連論文リスト
- Message Propagation Through Time: An Algorithm for Sequence Dependency
Retention in Time Series Modeling [14.49997340857179]
本稿では,時系列モデリングのためのMPTT(Message Propagation Through Time)アルゴリズムを提案する。
MPTTは、ステートフルなソリューションと比較して、より高速なトレーニング時間を保ちながら、長時間の時間的依存を取り入れている。
実験の結果,MPTTは4つの気候データセットにおいて7つの戦略より優れていた。
論文 参考訳(メタデータ) (2023-09-28T22:38:18Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Formally-Sharp DAgger for MCTS: Lower-Latency Monte Carlo Tree Search
using Data Aggregation with Formal Methods [0.0]
本研究では,モンテカルロ木探索 (MCTS) とディープラーニングを効率よく組み合わせて,高品質な回帰地平線政策を創出する方法について検討する。
モデルチェック手法を用いてMCTSアルゴリズムを誘導し,高品質な意思決定のオフラインサンプルを生成する。
これらのサンプルは、それらを生成するために使用されるポリシーを模倣するニューラルネットワークのトレーニングに使用することができる。
論文 参考訳(メタデータ) (2023-08-15T12:33:58Z) - Treatment-RSPN: Recurrent Sum-Product Networks for Sequential Treatment
Regimes [3.7004311481324677]
Sum-product Network (SPN) は、高い効率な確率的推論を可能にする新しいディープラーニングアーキテクチャとして登場した。
RSPNを用いた逐次的処理決定行動と処理応答のモデル化のための一般的なフレームワークを提案する。
本研究は,MIMIC-IV集中治療ユニット医療データベースから得られた,人工的データセットと実世界のデータに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-11-14T00:18:44Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - Multimodal Meta-Learning for Time Series Regression [3.135152720206844]
メタラーニングを用いてモデルパラメータを新しい短史時系列に迅速に適応させるアイデアについて検討する。
提案手法は,12実験中9実験において,少ないデータでTSRを学習し,ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-05T20:50:18Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - HiPPO: Recurrent Memory with Optimal Polynomial Projections [93.3537706398653]
本稿では,連続信号と離散時系列をベースに投影してオンライン圧縮するための一般フレームワーク(HiPPO)を提案する。
過去の各時間ステップの重要性を示す尺度が与えられた場合、HiPPOは自然なオンライン関数近似問題に対する最適解を生成する。
このフォーマルなフレームワークは、すべての履歴を記憶するために時間をかけてスケールする新しいメモリ更新メカニズム(HiPPO-LegS)を提供する。
論文 参考訳(メタデータ) (2020-08-17T23:39:33Z) - Resource Allocation via Graph Neural Networks in Free Space Optical
Fronthaul Networks [119.81868223344173]
本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。
我々は、FSOネットワーク構造を利用するために、ポリシーパラメータ化のためのグラフニューラルネットワーク(GNN)を検討する。
本アルゴリズムは,システムモデルに関する知識が不要なモデルフリーでGNNを訓練するために開発された。
論文 参考訳(メタデータ) (2020-06-26T14:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。