論文の概要: LLM-Guided Probabilistic Program Induction for POMDP Model Estimation
- arxiv url: http://arxiv.org/abs/2505.02216v1
- Date: Sun, 04 May 2025 18:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.490473
- Title: LLM-Guided Probabilistic Program Induction for POMDP Model Estimation
- Title(参考訳): POMDPモデル推定のためのLLM誘導確率プログラム誘導
- Authors: Aidan Curtis, Hao Tang, Thiago Veloso, Kevin Ellis, Tomás Lozano-Pérez, Leslie Pack Kaelbling,
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)モデルは不確実性の下で決定される。
我々は、観測関数、報酬関数、遷移関数、初期状態分布関数を含むモデルのコンポーネントを低複雑さ確率的グラフィカルモデルとしてモデル化できるPOMDPのサブクラスに興味を持っている。
- 参考スコア(独自算出の注目度): 43.0417368869502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) model decision making under uncertainty. While there are many approaches to approximately solving POMDPs, we aim to address the problem of learning such models. In particular, we are interested in a subclass of POMDPs wherein the components of the model, including the observation function, reward function, transition function, and initial state distribution function, can be modeled as low-complexity probabilistic graphical models in the form of a short probabilistic program. Our strategy to learn these programs uses an LLM as a prior, generating candidate probabilistic programs that are then tested against the empirical distribution and adjusted through feedback. We experiment on a number of classical toy POMDP problems, simulated MiniGrid domains, and two real mobile-base robotics search domains involving partial observability. Our results show that using an LLM to guide in the construction of a low-complexity POMDP model can be more effective than tabular POMDP learning, behavior cloning, or direct LLM planning.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)モデルは不確実性の下で決定される。
POMDPの解法には多くのアプローチがあるが、そのようなモデルを学習する際の問題に対処することを目的としている。
特に、観察関数、報酬関数、遷移関数、初期状態分布関数を含むモデルのコンポーネントを、短い確率的プログラムの形で低複雑さ確率的グラフィカルモデルとしてモデル化できるPOMDPのサブクラスに関心がある。
これらのプログラムを学習するための戦略は, LLM を先行プログラムとして使用し, 実験的分布に対してテストを行い, フィードバックによって調整する確率的プログラムを生成する。
我々は,いくつかの古典的玩具POMDP問題,シミュレーションされたミニグリッドドメイン,および部分観測性を含む2つの実移動型ロボット検索ドメインについて実験を行った。
この結果から,低複雑POMDPモデルの構築にLLMを用いることは,表型POMDP学習や行動クローニング,直接LCM計画よりも効果的であることが示唆された。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Simplifying Complex Observation Models in Continuous POMDP Planning with
Probabilistic Guarantees and Practice [9.444784653236157]
我々は,簡易観測モデルを計画に用いた場合,どのような意味があるのかという問題に対処する。
我々の主な貢献は、単純化されたモデルの統計的全変動距離に基づく新しい確率的境界である。
計算はオフラインとオンラインに分かれることが可能で、計画中にコストのかかるモデルにアクセスすることなく、正式な保証に到達します。
論文 参考訳(メタデータ) (2023-11-13T20:55:02Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。