論文の概要: Online Planning in POMDPs with State-Requests
- arxiv url: http://arxiv.org/abs/2407.18812v1
- Date: Fri, 26 Jul 2024 15:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:59:26.373710
- Title: Online Planning in POMDPs with State-Requests
- Title(参考訳): 国家要求を考慮したPOMDPのオンラインプランニング
- Authors: Raphael Avalos, Eugenio Bargiacchi, Ann Nowé, Diederik M. Roijers, Frans A. Oliehoek,
- Abstract要約: AEMS-SRは、状態要求を伴うPOMDP向けに設計された、原則化されたオンライン計画アルゴリズムである。
探索空間を木の代わりにグラフとして表現することで、AEMS-SRは状態要求に由来する探索空間の指数的な成長を避けることができる。
- 参考スコア(独自算出の注目度): 14.675587077147421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In key real-world problems, full state information is sometimes available but only at a high cost, like activating precise yet energy-intensive sensors or consulting humans, thereby compelling the agent to operate under partial observability. For this scenario, we propose AEMS-SR (Anytime Error Minimization Search with State Requests), a principled online planning algorithm tailored for POMDPs with state requests. By representing the search space as a graph instead of a tree, AEMS-SR avoids the exponential growth of the search space originating from state requests. Theoretical analysis demonstrates AEMS-SR's $\varepsilon$-optimality, ensuring solution quality, while empirical evaluations illustrate its effectiveness compared with AEMS and POMCP, two SOTA online planning algorithms. AEMS-SR enables efficient planning in domains characterized by partial observability and costly state requests offering practical benefits across various applications.
- Abstract(参考訳): 重要な現実世界の問題では、完全な状態情報は時として利用できるが、正確なエネルギー集約型センサーの活性化や人間への相談など、高コストでしか利用できない。
このシナリオでは、状態要求を伴うPMDPに適したオンライン計画アルゴリズムであるAMMS-SR(Anytime Error Minimization Search with State Requests)を提案する。
探索空間を木の代わりにグラフとして表現することで、AEMS-SRは状態要求に由来する探索空間の指数的な成長を避けることができる。
理論的分析は、AEMS-SRの$\varepsilon$-optimalityを示し、ソリューションの品質を保証する一方、実証的な評価は、SOTAのオンライン計画アルゴリズムであるAEMSとPOMCPと比較してその効果を示す。
AEMS-SRは、部分的な可観測性とコストのかかる状態要求を特徴とするドメインの効率的な計画を可能にする。
関連論文リスト
- Automatic AI Model Selection for Wireless Systems: Online Learning via Digital Twinning [50.332027356848094]
AIベースのアプリケーションは、スケジューリングや電力制御などの機能を実行するために、インテリジェントコントローラにデプロイされる。
コンテキストとAIモデルのパラメータのマッピングは、ゼロショット方式で理想的に行われる。
本稿では,AMSマッピングのオンライン最適化のための一般的な手法を紹介する。
論文 参考訳(メタデータ) (2024-06-22T11:17:50Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Time-Synchronized Full System State Estimation Considering Practical Implementation Challenges [0.15978270011184256]
この問題を解決するために,Deep Neural Network-based State Estimator (DeNSE)を提案する。
DeNSEは、緩やかな時間スケールから引き出された推論と広範囲にわたる監視制御とデータ取得(SCADA)データを高速な時間スケールに間接的に組み合わせるために、ベイズフレームワークを使用している。
IEEE 118-busシステムを用いて得られた結果は、純粋にSCADA状態推定器とPMUのみの線形状態推定器よりもDeNSEの優位性を示す。
論文 参考訳(メタデータ) (2022-12-04T02:59:32Z) - An Online Approach to Solve the Dynamic Vehicle Routing Problem with
Stochastic Trip Requests for Paratransit Services [5.649212162857776]
動的車両ルーティング問題(DVRP)を解決するための完全オンライン手法を提案する。
時間的に疎いため、パラトランジットリクエストのバッチ化は困難である。
我々はモンテカルロ木探索を用いて任意の状態に対する行動を評価する。
論文 参考訳(メタデータ) (2022-03-28T22:15:52Z) - Hybrid intelligence for dynamic job-shop scheduling with deep
reinforcement learning and attention mechanism [28.28095225164155]
我々は、DJSPをマルコフ決定過程(MDP)として定式化し、強化学習(RL)に対処する。
本稿では,分割グラフを状態とするフレキシブルなハイブリッドフレームワークを提案する。
我々は、有名なOR-Libraryに基づく公開ベンチマークであるGymjspを紹介し、RLおよびDJSP研究コミュニティのための標準化されたオフザシェルフ施設を提供する。
論文 参考訳(メタデータ) (2022-01-03T09:38:13Z) - Demand-Side Scheduling Based on Multi-Agent Deep Actor-Critic Learning
for Smart Grids [56.35173057183362]
家庭用家電をネットでスケジュールできるスマートメーターが各家庭に備わっている需要側エネルギー管理の問題点を考察する。
目標は、リアルタイムの料金体系の下で全体のコストを最小化することです。
マルコフゲームとしてスマートグリッド環境の定式化を提案する。
論文 参考訳(メタデータ) (2020-05-05T07:32:40Z) - Adaptive Informative Path Planning with Multimodal Sensing [36.16721115973077]
AIPPMS(マルチモーダルセンシング用MS)
AIPPMSを部分的に観測可能なマルコフ決定プロセス(POMDP)として、オンラインプランニングで解決する。
シミュレーションされた検索・救助シナリオと,従来のRockSample問題への挑戦的拡張の2つの領域について,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-21T20:28:57Z) - Multi-Agent Meta-Reinforcement Learning for Self-Powered and Sustainable
Edge Computing Systems [87.4519172058185]
エッジコンピューティング機能を有するセルフパワー無線ネットワークの効率的なエネルギー分配機構について検討した。
定式化問題を解くために,新しいマルチエージェントメタ強化学習(MAMRL)フレームワークを提案する。
実験の結果、提案されたMAMRLモデルは、再生不可能なエネルギー使用量を最大11%削減し、エネルギーコストを22.4%削減できることが示された。
論文 参考訳(メタデータ) (2020-02-20T04:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。