論文の概要: A Tensor Network Approach to Finite Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2002.05185v1
- Date: Wed, 12 Feb 2020 19:18:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 20:46:35.385778
- Title: A Tensor Network Approach to Finite Markov Decision Processes
- Title(参考訳): 有限マルコフ決定過程に対するテンソルネットワークアプローチ
- Authors: Edward Gillman, Dominic C. Rose and Juan P. Garrahan
- Abstract要約: 有限, エピソード, 離散 MDP の一般 TN 定式化を導入する。
この定式化によって、TN向けに開発されたアルゴリズムを政策最適化に活用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor network (TN) techniques - often used in the context of quantum
many-body physics - have shown promise as a tool for tackling machine learning
(ML) problems. The application of TNs to ML, however, has mostly focused on
supervised and unsupervised learning. Yet, with their direct connection to
hidden Markov chains, TNs are also naturally suited to Markov decision
processes (MDPs) which provide the foundation for reinforcement learning (RL).
Here we introduce a general TN formulation of finite, episodic and discrete
MDPs. We show how this formulation allows us to exploit algorithms developed
for TNs for policy optimisation, the key aim of RL. As an application we
consider the issue - formulated as an RL problem - of finding a stochastic
evolution that satisfies specific dynamical conditions, using the simple
example of random walk excursions as an illustration.
- Abstract(参考訳): 量子多体物理学の文脈でよく用いられるテンソルネットワーク(tn)技術は、機械学習(ml)問題に取り組むためのツールとしてpromiseを示した。
しかし、MLへのTNの応用は、主に教師なし学習と教師なし学習に焦点を当てている。
しかし、隠れマルコフ連鎖と直結しているTNは、強化学習(RL)の基礎となるマルコフ決定過程(MDP)にも自然に適している。
ここでは、有限、エピソード、離散 MDP の一般 TN 式を導入する。
この定式化によって、政策最適化のためにTN向けに開発されたアルゴリズムを活用できることを示す。
応用として、ランダムウォーク探索の簡単な例を図示として、特定の動的条件を満たす確率的進化を求める(RL問題として定式化された)問題を考える。
関連論文リスト
- Characterizing out-of-distribution generalization of neural networks: application to the disordered Su-Schrieffer-Heeger model [38.79241114146971]
本稿では、量子位相の分類を訓練したニューラルネットワークの予測において、解釈可能性の手法が信頼を高める方法を示す。
特に, 複雑な分類問題において, 分配外分布の一般化を確実にできることを示す。
この研究は,解釈可能性手法の体系的利用が,科学的問題におけるNNの性能をいかに向上させるかを示す一例である。
論文 参考訳(メタデータ) (2024-06-14T13:24:32Z) - Problem-informed Graphical Quantum Generative Learning [0.3914676152740143]
確率変数の共役確率分布を学習するための問題インフォームド量子回路Born Machine Ansatzを提案する。
モデルの性能を従来の設計と比較し,問題に依存しない回路よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-23T00:29:35Z) - Training Neural Networks with Universal Adiabatic Quantum Computing [0.0]
ニューラルネットワーク(NN)のトレーニングは、かなりの時間とリソースを必要とする計算集約的なタスクである。
本稿では,AQC(Adiabatic Quantum Computing)を用いたNNトレーニングに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T18:51:50Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Pre-training Tensor-Train Networks Facilitates Machine Learning with Variational Quantum Circuits [70.97518416003358]
変分量子回路(VQC)は、ノイズの多い中間スケール量子(NISQ)デバイス上での量子機械学習を約束する。
テンソルトレインネットワーク(TTN)はVQC表現と一般化を向上させることができるが、結果として得られるハイブリッドモデルであるTTN-VQCは、Polyak-Lojasiewicz(PL)条件による最適化の課題に直面している。
この課題を軽減するために,プレトレーニングTTNモデルとVQCを組み合わせたPre+TTN-VQCを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:08:18Z) - Combining Reinforcement Learning and Tensor Networks, with an Application to Dynamical Large Deviations [0.0]
テンソルネットワーク(TN)と強化学習(RL)を統合するためのフレームワークを提案する。
我々は,RL問題に対するモデルフリーアプローチであるアクター批判法を考察し,そのポリシーと値関数の近似としてTNを導入する。
論文 参考訳(メタデータ) (2022-09-28T13:33:31Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Decomposition of Matrix Product States into Shallow Quantum Circuits [62.5210028594015]
テンソルネットワーク(TN)アルゴリズムは、パラメタライズド量子回路(PQC)にマッピングできる
本稿では,現実的な量子回路を用いてTN状態を近似する新しいプロトコルを提案する。
その結果、量子回路の逐次的な成長と最適化を含む1つの特定のプロトコルが、他の全ての手法より優れていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-01T17:08:41Z) - Residual Matrix Product State for Machine Learning [20.158215120846652]
行列生成状態 (MPS) と残存ニューラルネットワーク (NN) のアイデアを組み合わせることで, 残留行列生成状態 (ResMPS) を提案する。
ResMPSは層が"隠された"特徴を出力にマッピングするネットワークとして扱うことができる。
それは効率、安定性および表現力の最先端のTNモデルより優秀です。
論文 参考訳(メタデータ) (2020-12-22T05:44:20Z) - Stochastic Markov Gradient Descent and Training Low-Bit Neural Networks [77.34726150561087]
本稿では,量子化ニューラルネットワークのトレーニングに適用可能な離散最適化手法であるGradient Markov Descent (SMGD)を紹介する。
アルゴリズム性能の理論的保証と数値的な結果の促進を提供する。
論文 参考訳(メタデータ) (2020-08-25T15:48:15Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。