論文の概要: A Tensor Network Approach to Finite Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2002.05185v1
- Date: Wed, 12 Feb 2020 19:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:46:35.385778
- Title: A Tensor Network Approach to Finite Markov Decision Processes
- Title(参考訳): 有限マルコフ決定過程に対するテンソルネットワークアプローチ
- Authors: Edward Gillman, Dominic C. Rose and Juan P. Garrahan
- Abstract要約: 有限, エピソード, 離散 MDP の一般 TN 定式化を導入する。
この定式化によって、TN向けに開発されたアルゴリズムを政策最適化に活用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor network (TN) techniques - often used in the context of quantum
many-body physics - have shown promise as a tool for tackling machine learning
(ML) problems. The application of TNs to ML, however, has mostly focused on
supervised and unsupervised learning. Yet, with their direct connection to
hidden Markov chains, TNs are also naturally suited to Markov decision
processes (MDPs) which provide the foundation for reinforcement learning (RL).
Here we introduce a general TN formulation of finite, episodic and discrete
MDPs. We show how this formulation allows us to exploit algorithms developed
for TNs for policy optimisation, the key aim of RL. As an application we
consider the issue - formulated as an RL problem - of finding a stochastic
evolution that satisfies specific dynamical conditions, using the simple
example of random walk excursions as an illustration.
- Abstract(参考訳): 量子多体物理学の文脈でよく用いられるテンソルネットワーク(tn)技術は、機械学習(ml)問題に取り組むためのツールとしてpromiseを示した。
しかし、MLへのTNの応用は、主に教師なし学習と教師なし学習に焦点を当てている。
しかし、隠れマルコフ連鎖と直結しているTNは、強化学習(RL)の基礎となるマルコフ決定過程(MDP)にも自然に適している。
ここでは、有限、エピソード、離散 MDP の一般 TN 式を導入する。
この定式化によって、政策最適化のためにTN向けに開発されたアルゴリズムを活用できることを示す。
応用として、ランダムウォーク探索の簡単な例を図示として、特定の動的条件を満たす確率的進化を求める(RL問題として定式化された)問題を考える。
関連論文リスト
- A Neuro-Symbolic Approach to Multi-Agent RL for Interpretability and
Probabilistic Decision Making [42.503612515214044]
マルチエージェント強化学習(MARL)は、複数のエージェントが共存し、共有リソースと競合するシステムにおいて、実行時の意思決定に適している。
ディープラーニングベースの一般的なMARLソリューションを実世界の問題に適用することは、解釈可能性、サンプル効率、部分観測可能性などの問題に悩まされる。
本稿では,ニューロシンボリック手法を用いて,意思決定を分散協調的MARLエージェントで処理するイベント駆動型定式化を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:16:08Z) - Training Neural Networks with Universal Adiabatic Quantum Computing [0.0]
ニューラルネットワーク(NN)のトレーニングは、かなりの時間とリソースを必要とする計算集約的なタスクである。
本稿では,AQC(Adiabatic Quantum Computing)を用いたNNトレーニングに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:51:50Z) - Structured Pruning of Neural Networks for Constraints Learning [5.689013857168641]
MIPへの統合に先立って,これらの手法の1つであるプルーニングの有効性を示す。
我々は、複数の層を持つフィードフォワードニューラルネットワークを用いて実験を行い、敵の例を構築した。
以上の結果から,プルーニングは最終決定の質を損なうことなく,解時間を大幅に短縮することを示した。
論文 参考訳(メタデータ) (2023-07-14T16:36:49Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Reinforcement Learning with Tensor Networks: Application to Dynamical
Large Deviations [0.0]
テンソルネットワーク(TN)と強化学習(RL)を統合するためのフレームワークを提案する。
我々は,RL問題に対するモデルフリーアプローチであるアクター批判法を考察し,そのポリシーと値関数の近似としてTNを導入する。
論文 参考訳(メタデータ) (2022-09-28T13:33:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - Residual Matrix Product State for Machine Learning [20.158215120846652]
行列生成状態 (MPS) と残存ニューラルネットワーク (NN) のアイデアを組み合わせることで, 残留行列生成状態 (ResMPS) を提案する。
ResMPSは層が"隠された"特徴を出力にマッピングするネットワークとして扱うことができる。
それは効率、安定性および表現力の最先端のTNモデルより優秀です。
論文 参考訳(メタデータ) (2020-12-22T05:44:20Z) - Chance-Constrained Control with Lexicographic Deep Reinforcement
Learning [77.34726150561087]
本稿では,レキシックなDeep Reinforcement Learning(DeepRL)に基づく確率制約マルコフ決定プロセスを提案する。
有名なDeepRLアルゴリズムDQNの辞書版も提案され、シミュレーションによって検証されている。
論文 参考訳(メタデータ) (2020-10-19T13:09:14Z) - Stochastic Markov Gradient Descent and Training Low-Bit Neural Networks [77.34726150561087]
本稿では,量子化ニューラルネットワークのトレーニングに適用可能な離散最適化手法であるGradient Markov Descent (SMGD)を紹介する。
アルゴリズム性能の理論的保証と数値的な結果の促進を提供する。
論文 参考訳(メタデータ) (2020-08-25T15:48:15Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。