論文の概要: A note on the article "On Exploiting Spectral Properties for Solving MDP
with Large State Space"
- arxiv url: http://arxiv.org/abs/2107.08488v1
- Date: Sun, 18 Jul 2021 16:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 02:17:12.720574
- Title: A note on the article "On Exploiting Spectral Properties for Solving MDP
with Large State Space"
- Title(参考訳): 大規模状態空間でのMDP解決のための分光特性の爆発について」特集号によせて
- Authors: D. Maran
- Abstract要約: 我々は「大規模状態空間でのMDP解決のための分光特性の爆発」の理論的結果を改善する。
非現実的な仮定の下で収束することが証明されたそれらのアルゴリズムは、実際に常に収束することが保証されていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We improve a theoretical result of the article "On Exploiting Spectral
Properties for Solving MDP with Large State Space" showing that their
algorithm, which was proved to converge under some unrealistic assumptions, is
actually guaranteed to converge always.
- Abstract(参考訳): 我々は,「大規模状態空間でMDPを解くための分光特性の爆発」という論文の理論的結果を改善し,非現実的な仮定の下で収束することが証明されたアルゴリズムが,実際に常に収束することが保証されていることを示す。
関連論文リスト
- Spectral Algorithms on Manifolds through Diffusion [1.7227952883644062]
再生カーネル空間におけるスペクトルアルゴリズムの収束性能について検討する。
一般化ノルムに関する厳密な収束上限を導出するために積分作用素技術を用いる。
本研究は,高次元近似のより広い文脈において,スペクトルアルゴリズムが実質的に重要であることを確認した。
論文 参考訳(メタデータ) (2024-03-06T12:43:53Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - An Asymptotically Optimal Algorithm for the Convex Hull Membership Problem [21.312152185262]
純粋な探査環境における凸船体構成問題について検討する。
我々はThompson-CHMというアルゴリズムを初めて提案し、そのモジュラー設計は停止規則とサンプリング規則から構成される。
論文 参考訳(メタデータ) (2023-02-03T23:41:53Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Finding spectral gaps in quasicrystals [0.0]
このアルゴリズムを適用し、平面のアムマン・ベンカータイリング上のホフシュタッターモデルが特定のエネルギーでスペクトルギャップを持つことを証明する。
我々のアルゴリズムは局所的複雑性が有限なより一般的なシステムに適用でき、最終的にはすべてのギャップを見つける。
論文 参考訳(メタデータ) (2022-05-21T15:21:02Z) - Measuring dissimilarity with diffeomorphism invariance [94.02751799024684]
DID(DID)は、幅広いデータ空間に適用可能なペアワイズな相似性尺度である。
我々は、DIDが理論的研究と実用に関係のある特性を享受していることを証明する。
論文 参考訳(メタデータ) (2022-02-11T13:51:30Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z) - Sparse tree search optimality guarantees in POMDPs with continuous
observation spaces [39.17638795259191]
連続状態と観測空間を持つ部分観測可能なマルコフ決定プロセス(POMDP)は、実世界の意思決定と制御問題を表現するための強力な柔軟性を有する。
観測可能性重み付けを用いた最近のオンラインサンプリングベースアルゴリズムは、連続的な観測空間を持つ領域において、前例のない有効性を示している。
この研究は、単純化されたアルゴリズム、部分的に観測可能な重み付きスパースサンプリング(POWSS)が高い確率でQ値を正確に推定し、最適解の近くで任意に実行できることを証明し、そのような正当化を提供する。
論文 参考訳(メタデータ) (2019-10-10T02:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。