論文の概要: Scaling Internal-State Policy-Gradient Methods for POMDPs
- arxiv url: http://arxiv.org/abs/2512.03204v1
- Date: Tue, 02 Dec 2025 20:03:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:18.659724
- Title: Scaling Internal-State Policy-Gradient Methods for POMDPs
- Title(参考訳): POMDPにおける内部政策勾配法のスケーリング
- Authors: Douglas Aberdeen, Jonathan Baxter,
- Abstract要約: 政策段階的な手法は、部分的に観察可能な環境での行動を学ぶためのメカニズムとして近年注目を集めている。
本稿では,無限水平環境下でのメモリ使用ポリシー学習のための改良アルゴリズムについて述べる。
ノイズの多いロボットナビゲーションやマルチエージェント問題を含む,いくつかの大規模POMDP上でこれらのアルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Policy-gradient methods have received increased attention recently as a mechanism for learning to act in partially observable environments. They have shown promise for problems admitting memoryless policies but have been less successful when memory is required. In this paper we develop several improved algorithms for learning policies with memory in an infinite-horizon setting -- directly when a known model of the environment is available, and via simulation otherwise. We compare these algorithms on some large POMDPs, including noisy robot navigation and multi-agent problems.
- Abstract(参考訳): 政策段階的な手法は、部分的に観察可能な環境での行動を学ぶためのメカニズムとして近年注目を集めている。
彼らは、メモリレスポリシーを認める問題に対する約束を示してきたが、メモリを必要とする場合、あまり成功しなかった。
本稿では,環境の既知のモデルが利用可能である場合と,それ以外はシミュレーションによって直接的に,無限水平環境におけるメモリによるポリシー学習のための改良されたアルゴリズムを開発する。
ノイズの多いロボットナビゲーションやマルチエージェント問題を含む,いくつかの大規模POMDP上でこれらのアルゴリズムを比較した。
関連論文リスト
- Memory Allocation in Resource-Constrained Reinforcement Learning [8.866141780407903]
リソースの制約は、学習と意思決定の両方を根本的に変えることができます。
標準的な強化学習アルゴリズムを用いて、未知環境をナビゲートする際のメモリ制約がエージェントの性能に与える影響について検討する。
特に、メモリ制限されたエージェントはジレンマに直面している:そのモデルを使用して計画を作成するのとは対照的に、そのエージェントの内部プロセス、例えば世界モデルを見積もるなど、そのエージェントの内部プロセスに制限されたメモリのどのくらいを割り当てるべきか?
論文 参考訳(メタデータ) (2025-06-09T21:15:37Z) - Low-Rank MDPs with Continuous Action Spaces [42.695778474071254]
本研究では,このような手法を連続的な動作を伴う設定に拡張する問題について検討する。
アルゴリズムを変更せずに、動作が連続することを許された場合、同様のPAC境界が得られることを示す。
論文 参考訳(メタデータ) (2023-11-06T22:05:08Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Episodic Policy Gradient Training [43.62408764384791]
エピソード政策グラディエントトレーニング(EPGT)
本稿では, 強調学習アルゴリズムのハイパーパラメータを最適化するために, エピソードメモリを用いたポリシー勾配法のための新しいトレーニング手法を提案する。
連続環境と離散環境の両方における実験結果から,提案手法を用いることにより,様々なポリシー勾配アルゴリズムの性能向上が期待できる。
論文 参考訳(メタデータ) (2021-12-03T11:15:32Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。