Fugu-MT 論文翻訳(概要): Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure

論文の概要: Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure

arxiv url: http://arxiv.org/abs/2102.00030v3
Date: Tue, 9 Mar 2021 18:30:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 00:26:54.568701
Title: Optimistic Policy Iteration for MDPs with Acyclic Transient State Structure
Title（参考訳）: 非循環的過渡状態構造を有するMDPの最適政策イテレーション
Authors: Joseph Lubars, Anna Winnicki, Michael Livesay and R. Srikant
Abstract要約: 我々は,すべての定常ポリシーがマルコフ連鎖に対して同じグラフ構造を誘導するマルコフ決定過程(mdps)を考える。我々は、楽観的政策反復(OPI)のバージョンに関連するダイナミクスの収束を証明する。
参考スコア（独自算出の注目度）: 14.528756508275622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider Markov Decision Processes (MDPs) in which every stationary policy induces the same graph structure for the underlying Markov chain and further, the graph has the following property: if we replace each recurrent class by a node, then the resulting graph is acyclic. For such MDPs, we prove the convergence of the stochastic dynamics associated with a version of optimistic policy iteration (OPI), suggested in Tsitsiklis (2002), in which the values associated with all the nodes visited during each iteration of the OPI are updated.
Abstract（参考訳）: すべての定常ポリシーが基礎となるマルコフ連鎖のグラフ構造を誘導するマルコフ決定過程(MDP)を考えると、グラフは以下の性質を持つ。このようなMDPに対して、楽観的なポリシー反復(OPI)のバージョンに関連する確率力学の収束をTsitsiklis (2002) に提案し、OPIの各イテレーションで訪れた全てのノードに関連する値を更新する。

関連論文リスト

A Benchmark Dataset for Graph Regression with Homogeneous and Multi-Relational Variants [3.037387520023979]
プログラムグラフから構築した新しいグラフ回帰データセットであるRelSCを紹介する。各グラフは、対応するプログラムの実行時間コストにラベル付けされる。 RelSCの両変種について,多種多様なグラフニューラルネットワークアーキテクチャの評価を行った。
論文参考訳（メタデータ） (2025-05-29T12:59:36Z)
Structure Matters: Dynamic Policy Gradient [1.747623282473278]
動的ポリシー勾配(DynPG)というフレームワークを導入する。 DynPGは動的プログラミングと(あらゆる)ポリシー勾配法を直接統合する。その結果,バニラ政策勾配に対する最近の下限例と対比した。
論文参考訳（メタデータ） (2024-11-07T17:51:55Z)
MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
本稿では,マルコフ決定過程(MDP)の自然な正規化手順による新しい幾何学的解釈を提案する。このMDPの利点保存変換は、私たちがReward Balancingと呼ぶアルゴリズムのクラスを動機付けます。本稿では、このクラスにおけるいくつかのアルゴリズムの収束解析を行い、特に、未知の遷移確率のMDPに対して、最先端のサンプル複雑性の結果を改善することができることを示す。
論文参考訳（メタデータ） (2024-07-09T09:39:45Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
Beyond Stationarity: Convergence Analysis of Stochastic Softmax Policy Gradient Methods [0.40964539027092917]
Markov Decision Processs (MDP) は、シーケンシャルな意思決定問題のモデリングと解決のための正式なフレームワークである。実際、全てのパラメータは、動的プログラミングによって提案される固有の構造を無視して、同時に訓練される。本稿では、動的プログラミングと動的ポリシー勾配というポリシー勾配の組み合わせを紹介し、パラメータを時間内に後方にトレーニングする。
論文参考訳（メタデータ） (2023-10-04T09:21:01Z)
Graph Signal Sampling for Inductive One-Bit Matrix Completion: a Closed-form Solution [112.3443939502313]
グラフ信号解析と処理の利点を享受する統合グラフ信号サンプリングフレームワークを提案する。キーとなる考え方は、各ユーザのアイテムのレーティングをアイテムイットグラフの頂点上の関数(信号)に変換することである。オンライン設定では、グラフフーリエ領域における連続ランダムガウス雑音を考慮したベイズ拡張(BGS-IMC)を開発する。
論文参考訳（メタデータ） (2023-02-08T08:17:43Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Continuous MDP Homomorphisms and Homomorphic Policy Gradient [51.25171126424949]
MDP準同型の定義を拡張し、連続状態空間における連続的な作用を包含する。本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-15T15:26:49Z)
The PWLR Graph Representation: A Persistent Weisfeiler-Lehman scheme with Random Walks for Graph Classification [0.6999740786886536]
グラフ表現のための永続Weisfeiler-Lehmanランダムウォークスキーム(PWLR)。我々はWeisfeiler-Lehmanプロシージャの多くの変種を一般化する。
論文参考訳（メタデータ） (2022-08-29T08:50:37Z)
Time-aware Dynamic Graph Embedding for Asynchronous Structural Evolution [60.695162101159134]
既存の作業は、動的グラフを変更のシーケンスとして見るだけである。動的グラフを接合時間に付随する時間的エッジシーケンスとして定式化する。頂点とエッジのタイムパン組み込みにはタイムアウェアなTransformerが提案されている。 vertexの動的接続と学習へのToEs。頂点表現
論文参考訳（メタデータ） (2022-07-01T15:32:56Z)
Structural Entropy Guided Graph Hierarchical Pooling [8.080910755718511]
本稿では,局所的な構造損傷と準最適問題の2つの問題に対処するために,階層型プール手法であるSEPを提案する。 SEPはグラフ分類ベンチマークにおいて最先端のグラフプーリング法より優れ、ノード分類では優れた性能が得られる。
論文参考訳（メタデータ） (2022-06-26T06:30:54Z)
Graph Gamma Process Generalized Linear Dynamical Systems [60.467040479276704]
実マルチ変数時系列をモデル化するために,グラフガンマ過程(GGP)線形力学系を導入する。時間的パターン発見のために、モデルの下での潜在表現は、時系列を多変量部分列の同相集合に分解するために使用される。非零次ノード数が有限であるランダムグラフを用いて、潜時状態遷移行列の空間パターンと次元の両方を定義する。
論文参考訳（メタデータ） (2020-07-25T04:16:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。