論文の概要: Neural Value Iteration
- arxiv url: http://arxiv.org/abs/2511.08825v1
- Date: Thu, 13 Nov 2025 01:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.244141
- Title: Neural Value Iteration
- Title(参考訳): ニューラルバリュー・イテレーション
- Authors: Yang You, Ufuk Çakır, Alex Schutz, Robert Skilton, Nick Hawes,
- Abstract要約: 本稿では,POMDの値関数をニューラルネットワークの有限集合として表現できることを示す。
この手法はオフラインの解法でもほぼ次元の解が得られる。
- 参考スコア(独自算出の注目度): 14.535957451368608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The value function of a POMDP exhibits the piecewise-linear-convex (PWLC) property and can be represented as a finite set of hyperplanes, known as $α$-vectors. Most state-of-the-art POMDP solvers (offline planners) follow the point-based value iteration scheme, which performs Bellman backups on $α$-vectors at reachable belief points until convergence. However, since each $α$-vector is $|S|$-dimensional, these methods quickly become intractable for large-scale problems due to the prohibitive computational cost of Bellman backups. In this work, we demonstrate that the PWLC property allows a POMDP's value function to be alternatively represented as a finite set of neural networks. This insight enables a novel POMDP planning algorithm called \emph{Neural Value Iteration}, which combines the generalization capability of neural networks with the classical value iteration framework. Our approach achieves near-optimal solutions even in extremely large POMDPs that are intractable for existing offline solvers.
- Abstract(参考訳): POMDPの値関数はピースワイズ線形凸(PWLC)の性質を示し、$α$-ベクトルと呼ばれる超平面の有限集合として表すことができる。
ほとんどの最先端のPOMDPソルバ(オフラインプランナー)は点ベースの値反復スキームに従い、収束するまで到達可能な信念点において$α$-vectorsのベルマンバックアップを実行する。
しかし、各$α$-vectorは$|S|$-dimensionalであるため、ベルマンバックアップの計算コストが禁じられているため、これらの手法はすぐに大規模問題に対して難解となる。
本研究では, PWLC特性により, POMDPの値関数をニューラルネットワークの有限集合として表現できることを実証する。
この洞察は、ニューラルネットワークの一般化能力と古典的な価値反復フレームワークを組み合わせた、‘emph{Neural Value Iteration}’と呼ばれる新しいPOMDP計画アルゴリズムを可能にする。
提案手法は, 既存のオフライン解法にとって難易度の高い極大POMDPであっても, ほぼ最適解が得られる。
関連論文リスト
- Deep neural networks can provably solve Bellman equations for Markov decision processes without the curse of dimensionality [3.6185342807265415]
離散時間最適制御問題と漏洩決定プロセス(MDP)は、不確実性の下でのシーケンシャルな意思決定の基本的なモデルである。
本稿では、無限時間地平線と有限制御セット$A$を持つMDPに関連する$Q$関数に対するディープニューラルネットワーク(DNN)近似を構築する。
論文 参考訳(メタデータ) (2025-06-28T11:25:44Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Novel Quadratic Constraints for Extending LipSDP beyond Slope-Restricted
Activations [52.031701581294804]
ニューラルネットワークのリプシッツ境界は、高い時間保存保証で計算できる。
このギャップを埋めて,リプシッツを傾斜制限活性化関数を超えて拡張する。
提案した解析は一般であり、$ell$ および $ell_infty$ Lipschitz 境界を推定するための統一的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-01-25T09:23:31Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Convolutional Proximal Neural Networks and Plug-and-Play Algorithms [0.225596179391365]
本稿では,畳み込み近位ニューラルネットワーク(cPNN)を紹介する。
完全長さのフィルタに対しては、CPNNを訓練するスティフェル多様体の部分多様体を提案する。
次に,所定のリプシッツ定数を持つcPNNを用いて信号画像の分解を行う方法について検討した。
論文 参考訳(メタデータ) (2020-11-04T13:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。