論文の概要: Scalable Solution Methods for Dec-POMDPs with Deterministic Dynamics
- arxiv url: http://arxiv.org/abs/2508.21595v1
- Date: Fri, 29 Aug 2025 12:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.052909
- Title: Scalable Solution Methods for Dec-POMDPs with Deterministic Dynamics
- Title(参考訳): 決定論的ダイナミクスを用いたDec-POMDPのスケーラブル解法
- Authors: Yang You, Alex Schutz, Zhikun Li, Bruno Lacerda, Robert Skilton, Nick Hawes,
- Abstract要約: 決定論的分散POMDP(Det-Dec-POMDP)のクラスを紹介する。
これはDEC-POMDPのサブクラスであり、状態と共同動作に条件付けられた決定論的遷移と観察によって特徴づけられる。
次に、Iterative Deterministic POMDP Planning (IDPP) と呼ばれる実用的な解法を提案する。
- 参考スコア(独自算出の注目度): 20.560809517043904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many high-level multi-agent planning problems, including multi-robot navigation and path planning, can be effectively modeled using deterministic actions and observations. In this work, we focus on such domains and introduce the class of Deterministic Decentralized POMDPs (Det-Dec-POMDPs). This is a subclass of Dec-POMDPs characterized by deterministic transitions and observations conditioned on the state and joint actions. We then propose a practical solver called Iterative Deterministic POMDP Planning (IDPP). This method builds on the classic Joint Equilibrium Search for Policies framework and is specifically optimized to handle large-scale Det-Dec-POMDPs that current Dec-POMDP solvers are unable to address efficiently.
- Abstract(参考訳): マルチロボットナビゲーションや経路計画を含む多くの高レベルのマルチエージェント計画問題は、決定論的行動や観察を用いて効果的にモデル化することができる。
本稿では,そのような領域に着目し,決定論的分散POMDP(Det-Dec-POMDP)のクラスを導入する。
これはDEC-POMDPのサブクラスであり、状態と共同動作に条件付けられた決定論的遷移と観察によって特徴づけられる。
次に,Iterative Deterministic POMDP Planning (IDPP) と呼ばれる実用的問題解決手法を提案する。
この手法は従来のJoint Equilibrium Search for Policiesフレームワークに基づいており、現在のDec-POMDPソルバでは効率的に対応できない大規模Det-Dec-POMDPの処理に特に最適化されている。
関連論文リスト
- Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。
L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する
連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文 参考訳(メタデータ) (2025-02-28T16:02:23Z) - Contextual Bilevel Reinforcement Learning for Incentive Alignment [42.22085862132403]
両レベルの意思決定モデルであるCB-RL(Contextual Bilevel Reinforcement Learning)を導入する。
CB-RL は Stackelberg Game と見ることができ、リーダーとリーダーのコントロールを超えたランダムなコンテキストが同時に多くの MDP の設定を決定する。
このフレームワークは、従来の二段階最適化を超えて、報酬形成、契約理論、メカニズム設計といった様々な分野に関連性を見出す。
論文 参考訳(メタデータ) (2024-06-03T17:54:39Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces [5.732271870257913]
不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-08T09:31:48Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。