論文の概要: Optimistic Policy Iteration for MDPs with Acyclic Transient State
Structure
- arxiv url: http://arxiv.org/abs/2102.00030v3
- Date: Tue, 9 Mar 2021 18:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:26:54.568701
- Title: Optimistic Policy Iteration for MDPs with Acyclic Transient State
Structure
- Title(参考訳): 非循環的過渡状態構造を有するMDPの最適政策イテレーション
- Authors: Joseph Lubars, Anna Winnicki, Michael Livesay and R. Srikant
- Abstract要約: 我々は,すべての定常ポリシーがマルコフ連鎖に対して同じグラフ構造を誘導するマルコフ決定過程(mdps)を考える。
我々は、楽観的政策反復(OPI)のバージョンに関連するダイナミクスの収束を証明する。
- 参考スコア(独自算出の注目度): 14.528756508275622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider Markov Decision Processes (MDPs) in which every stationary policy
induces the same graph structure for the underlying Markov chain and further,
the graph has the following property: if we replace each recurrent class by a
node, then the resulting graph is acyclic. For such MDPs, we prove the
convergence of the stochastic dynamics associated with a version of optimistic
policy iteration (OPI), suggested in Tsitsiklis (2002), in which the values
associated with all the nodes visited during each iteration of the OPI are
updated.
- Abstract(参考訳): すべての定常ポリシーが基礎となるマルコフ連鎖のグラフ構造を誘導するマルコフ決定過程(MDP)を考えると、グラフは以下の性質を持つ。
このようなMDPに対して、楽観的なポリシー反復(OPI)のバージョンに関連する確率力学の収束をTsitsiklis (2002) に提案し、OPIの各イテレーションで訪れた全てのノードに関連する値を更新する。
関連論文リスト
- Structure Matters: Dynamic Policy Gradient [1.747623282473278]
動的ポリシー勾配(DynPG)というフレームワークを導入する。
DynPGは動的プログラミングと(あらゆる)ポリシー勾配法を直接統合する。
その結果,バニラ政策勾配に対する最近の下限例と対比した。
論文 参考訳(メタデータ) (2024-11-07T17:51:55Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。
実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。
本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文 参考訳(メタデータ) (2023-10-04T09:21:01Z) - Graph Signal Sampling for Inductive One-Bit Matrix Completion: a
Closed-form Solution [112.3443939502313]
グラフ信号解析と処理の利点を享受する統合グラフ信号サンプリングフレームワークを提案する。
キーとなる考え方は、各ユーザのアイテムのレーティングをアイテムイットグラフの頂点上の関数(信号)に変換することである。
オンライン設定では、グラフフーリエ領域における連続ランダムガウス雑音を考慮したベイズ拡張(BGS-IMC)を開発する。
論文 参考訳(メタデータ) (2023-02-08T08:17:43Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T15:26:49Z) - The PWLR Graph Representation: A Persistent Weisfeiler-Lehman scheme
with Random Walks for Graph Classification [0.6999740786886536]
グラフ表現のための永続Weisfeiler-Lehmanランダムウォークスキーム(PWLR)。
我々はWeisfeiler-Lehmanプロシージャの多くの変種を一般化する。
論文 参考訳(メタデータ) (2022-08-29T08:50:37Z) - Time-aware Dynamic Graph Embedding for Asynchronous Structural Evolution [60.695162101159134]
既存の作業は、動的グラフを変更のシーケンスとして見るだけである。
動的グラフを接合時間に付随する時間的エッジシーケンスとして定式化する。
頂点とエッジのタイムパン
組み込みにはタイムアウェアなTransformerが提案されている。
vertexの動的接続と学習へのToEs。
頂点表現
論文 参考訳(メタデータ) (2022-07-01T15:32:56Z) - Structural Entropy Guided Graph Hierarchical Pooling [8.080910755718511]
本稿では,局所的な構造損傷と準最適問題の2つの問題に対処するために,階層型プール手法であるSEPを提案する。
SEPはグラフ分類ベンチマークにおいて最先端のグラフプーリング法より優れ、ノード分類では優れた性能が得られる。
論文 参考訳(メタデータ) (2022-06-26T06:30:54Z) - Graph Gamma Process Generalized Linear Dynamical Systems [60.467040479276704]
実マルチ変数時系列をモデル化するために,グラフガンマ過程(GGP)線形力学系を導入する。
時間的パターン発見のために、モデルの下での潜在表現は、時系列を多変量部分列の同相集合に分解するために使用される。
非零次ノード数が有限であるランダムグラフを用いて、潜時状態遷移行列の空間パターンと次元の両方を定義する。
論文 参考訳(メタデータ) (2020-07-25T04:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。