論文の概要: Toward Learning POMDPs Beyond Full-Rank Actions and State Observability
- arxiv url: http://arxiv.org/abs/2601.18930v3
- Date: Tue, 03 Feb 2026 17:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.786114
- Title: Toward Learning POMDPs Beyond Full-Rank Actions and State Observability
- Title(参考訳): フルランクアクションを超えたPOMDPの学習と状態可観測性
- Authors: Seiji Shaw, Travis Manderson, Chad Kessens, Nicholas Roy,
- Abstract要約: 本稿では,離散的に観測可能なマルコフ決定過程のパラメータの学習方法について述べる。
エージェントはPOMDPの行動と観測空間の知識から始まるが、状態空間、遷移、観測モデルではない。
実験の結果, 明確な観測と遷移の可能性を利用して, 異なる目標に対する新たな計画を作成することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 19.109390901181488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are interested in enabling autonomous agents to learn and reason about systems with hidden states, such as locking mechanisms. We cast this problem as learning the parameters of a discrete Partially Observable Markov Decision Process (POMDP). The agent begins with knowledge of the POMDP's actions and observation spaces, but not its state space, transitions, or observation models. These properties must be constructed from a sequence of actions and observations. Spectral approaches to learning models of partially observable domains, such as Predictive State Representations (PSRs), learn representations of state that are sufficient to predict future outcomes. PSR models, however, do not have explicit transition and observation system models that can be used with different reward functions to solve different planning problems. Under a mild set of rankness assumptions on the products of transition and observation matrices, we show how PSRs learn POMDP matrices up to a similarity transform, and this transform may be estimated via tensor decomposition methods. Our method learns observation matrices and transition matrices up to a partition of states, where the states in a single partition have the same observation distributions corresponding to actions whose transition matrices are full-rank. Our experiments suggest that explicit observation and transition likelihoods can be leveraged to generate new plans for different goals and reward functions after the model has been learned. We also show that learning a POMDP beyond a partition of states is impossible from sequential data by constructing two POMDPs that agree on all observation distributions but differ in their transition dynamics.
- Abstract(参考訳): 私たちは、自動エージェントがロック機構のような隠された状態を持つシステムを学習し、推論できるようにすることに興味があります。
我々はこの問題を,離散的に観測可能なマルコフ決定過程(POMDP)のパラメータの学習として用いた。
エージェントはPOMDPの行動と観測空間の知識から始まるが、状態空間、遷移、観測モデルではない。
これらの性質は一連の行動と観測から構築されなければならない。
予測状態表現(PSR)のような部分的に観測可能な領域の学習モデルへのスペクトルアプローチは、将来の結果を予測するのに十分な状態の表現を学ぶ。
しかしながら、PSRモデルは、異なる報酬関数で異なる計画問題の解決に使用できる明示的な遷移と観測システムモデルを持っていない。
遷移行列と観測行列の積に関する厳密なランクネスの仮定の下で、PSRがPOMDP行列を類似性変換まで学習する方法を示し、この変換はテンソル分解法によって推定できる。
本手法は,遷移行列がフルランクな動作に対応する観測分布を持つ状態の分割まで,観測行列と遷移行列を学習する。
実験により, モデル学習後の目標と報酬関数の新たな計画を生成するために, 明示的な観測と遷移可能性を利用することが可能であることが示唆された。
また、全ての観測分布に一致するが遷移ダイナミクスが異なる2つのPOMDPを構築することにより、逐次データからPOMDPを学習することは不可能であることを示す。
関連論文リスト
- Reinforcement learning based data assimilation for unknown state model [3.032674692886751]
本研究では,強化学習とアンサンブルに基づくベイジアン・ファルトリング手法を組み合わせた新しい手法を提案する。
提案フレームワークは, 非線形および部分観測計測モデルを含む, 幅広い観測シナリオに対応している。
いくつかの数値的な例では,提案手法は高次元設定における精度とロバスト性を向上することを示した。
論文 参考訳(メタデータ) (2025-11-04T05:58:37Z) - Reinforcement Learning with Action-Triggered Observations [46.88582659499577]
動作トリガー型スポラジカルトレーサブルマルコフ決定プロセス(ATST-MDPs)
このフレームワークは、Action-Triggered Sporadically Traceable Markov Decision Processs (ATST-MDPs)として定式化されている。
エージェントが次の観察が来るまで一連のアクションを実行することをコミットするアクションシーケンス学習パラダイムを導入する。
論文 参考訳(メタデータ) (2025-10-02T16:00:50Z) - Decomposing Behavioral Phase Transitions in LLMs: Order Parameters for Emergent Misalignment [0.0]
極端に有害なデータセットを微調整したLCMは、人間の価値に対して広く不一致した行動を引き起こす可能性がある。
我々は、微調整中の急激な遷移を検出し、特徴付けるための包括的枠組みを開発する。
我々のフレームワークは、言語に基づく順序パラメータの自動発見と定量化を可能にする。
論文 参考訳(メタデータ) (2025-08-27T16:19:49Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Particle-Based Score Estimation for State Space Model Learning in
Autonomous Driving [62.053071723903834]
マルチオブジェクト状態推定はロボットアプリケーションの基本的な問題である。
粒子法を用いて最大形パラメータを学習することを検討する。
自動運転車から収集した実データに本手法を適用した。
論文 参考訳(メタデータ) (2022-12-14T01:21:05Z) - Unsupervised representation learning with recognition-parametrised
probabilistic models [12.865596223775649]
認識パラメータモデル(RPM)に基づく確率的教師なし学習の新しいアプローチを提案する。
観測が条件独立であるというキー前提の下では、RPMはパラメトリックな事前条件付き潜時分布と非パラメトリックな観測因子を結合する。
RPMは、動物と人工知能の両方にとって重要な機能である観測データの基礎となる有意義な潜在構造を発見する強力なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-09-13T00:33:21Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - On Contrastive Representations of Stochastic Processes [53.21653429290478]
プロセスの表現を学習することは、機械学習の新たな問題である。
本手法は,周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T11:00:24Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。