論文の概要: Agent-state based policies in POMDPs: Beyond belief-state MDPs
- arxiv url: http://arxiv.org/abs/2409.15703v1
- Date: Tue, 24 Sep 2024 03:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 19:32:29.435060
- Title: Agent-state based policies in POMDPs: Beyond belief-state MDPs
- Title(参考訳): POMDPにおけるエージェント・ステート・ベースの政策--信念・ステートのMDPを超えて
- Authors: Amit Sinha, Aditya Mahajan,
- Abstract要約: 我々はPOMDPにおける学習に対するいくつかのアプローチを統一的に扱う。
エージェント状態に基づくポリシーの異なるクラスと、各クラスで良いポリシーを見つけるために文献で提案されている様々なアプローチを強調します。
そこで我々は, PMDPにおけるQ-ラーニングとアクター批判アルゴリズムの改善のために, 近似情報状態アプローチのアイデアがどのように使われているかを示す。
- 参考スコア(独自算出の注目度): 1.918334858770111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The traditional approach to POMDPs is to convert them into fully observed MDPs by considering a belief state as an information state. However, a belief-state based approach requires perfect knowledge of the system dynamics and is therefore not applicable in the learning setting where the system model is unknown. Various approaches to circumvent this limitation have been proposed in the literature. We present a unified treatment of some of these approaches by viewing them as models where the agent maintains a local recursively updateable agent state and chooses actions based on the agent state. We highlight the different classes of agent-state based policies and the various approaches that have been proposed in the literature to find good policies within each class. These include the designer's approach to find optimal non-stationary agent-state based policies, policy search approaches to find a locally optimal stationary agent-state based policies, and the approximate information state to find approximately optimal stationary agent-state based policies. We then present how ideas from the approximate information state approach have been used to improve Q-learning and actor-critic algorithms for learning in POMDPs.
- Abstract(参考訳): POMDPの伝統的なアプローチは、信念状態を情報状態として考慮し、完全に観察されたMDPに変換することである。
しかし、信念に基づくアプローチはシステム力学の完全な知識を必要とするため、システムモデルが未知の学習環境では適用できない。
この制限を回避するための様々なアプローチが文献で提案されている。
本稿では,エージェントが局所的に再帰的に更新可能なエージェント状態を維持し,エージェント状態に基づいてアクションを選択するモデルとして,これらのアプローチを統一的に扱う方法を提案する。
エージェント状態に基づくポリシーの異なるクラスと、各クラスで良いポリシーを見つけるために文献で提案されている様々なアプローチを強調します。
これには、最適な非定常的エージェントベースポリシーを見つけるデザイナーのアプローチ、局所的に最適な定常的エージェントベースポリシーを見つけるポリシー探索アプローチ、ほぼ最適な定常的エージェントベースポリシーを見つけるための近似情報状態が含まれる。
そこで我々は, PMDPの学習におけるQ-ラーニングとアクター・クリティカルなアルゴリズムの改善のために, 近似情報状態アプローチのアイデアがどのように使われているかを示す。
関連論文リスト
- Periodic agent-state based Q-learning for POMDPs [23.296159073116264]
広く使われている代替手段は、観測履歴のモデルのない周期的に更新可能な機能であるエージェント状態を使用することである。
本稿では,エージェント状態に基づくQ-ラーニングの変種であるPA(エージェント状態に基づくQ-ラーニング)を提案する。
周期的マルコフ連鎖のアイデアと近似を組み合わせることで、PAが巡回極限に収束し、周期的ポリシーの近似誤差を特徴付けることを厳密に証明する。
論文 参考訳(メタデータ) (2024-07-08T16:58:57Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Plan Your Target and Learn Your Skills: Transferable State-Only
Imitation Learning via Decoupled Policy Optimization [44.32548301913779]
本稿では,Decoupled Policy Optimization (DePO)を導入し,政策を高レベルな状態プランナと逆ダイナミクスモデルとして明確に分離する。
組込み型疎結合政策勾配と生成的逆行訓練により、DePOは異なる行動空間や状態遷移力学への知識伝達を可能にする。
論文 参考訳(メタデータ) (2022-03-04T09:46:29Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。