論文の概要: Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying
Partially Observable Environment
- arxiv url: http://arxiv.org/abs/2312.03263v2
- Date: Fri, 19 Jan 2024 17:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 18:28:18.274909
- Title: Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying
Partially Observable Environment
- Title(参考訳): 風化が続く不確実性:時間変化のある部分観測可能な環境での学習と計画
- Authors: Gokul Puthumanaillam, Xiangyu Liu, Negar Mehr and Melkior Ornik
- Abstract要約: 時間による環境変動は、システムの最適な意思決定戦略に大きな影響を及ぼす可能性がある。
本稿では,TV-POMDP内での正確な推定と計画を行うための2段階のアプローチを提案する。
提案するフレームワークとアルゴリズムをシミュレーションとロボットを用いて検証する。
- 参考スコア(独自算出の注目度): 14.646280719661465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal decision-making presents a significant challenge for autonomous
systems operating in uncertain, stochastic and time-varying environments.
Environmental variability over time can significantly impact the system's
optimal decision making strategy for mission completion. To model such
environments, our work combines the previous notion of Time-Varying Markov
Decision Processes (TVMDP) with partial observability and introduces
Time-Varying Partially Observable Markov Decision Processes (TV-POMDP). We
propose a two-pronged approach to accurately estimate and plan within the
TV-POMDP: 1) Memory Prioritized State Estimation (MPSE), which leverages
weighted memory to provide more accurate time-varying transition estimates; and
2) an MPSE-integrated planning strategy that optimizes long-term rewards while
accounting for temporal constraint. We validate the proposed framework and
algorithms using simulations and hardware, with robots exploring a partially
observable, time-varying environments. Our results demonstrate superior
performance over standard methods, highlighting the framework's effectiveness
in stochastic, uncertain, time-varying domains.
- Abstract(参考訳): 最適な意思決定は、不確実で確率的、時間的な環境で動作する自律システムにとって大きな課題となる。
時間による環境変動は、ミッション完了のための最適な意思決定戦略に大きな影響を与える。
このような環境をモデル化するために,従来のTVMDP(Time-Varying Markov Decision Process)の概念と部分的可観測性を組み合わせて,TV-POMDP(Time-Varying partially Observable Markov Decision Process)を導入している。
我々は,TV-POMDP内の正確な推定と計画を行うための2つのアプローチを提案する。
1)より正確な時間変化遷移推定を提供するために重み付けメモリを利用するメモリ優先状態推定(MPSE)
2)時間制約を考慮した長期報酬を最適化したmpse統合計画戦略。
提案するフレームワークとアルゴリズムをシミュレーションとハードウェアを用いて検証し,部分的に観測可能な時間変動環境を探索する。
本結果は,標準手法よりも優れた性能を示し,確率的かつ不確実な時間変化領域におけるフレームワークの有効性を強調した。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Learning-assisted Stochastic Capacity Expansion Planning: A Bayesian Optimization Approach [3.124884279860061]
大規模容量拡大問題(CEP)は、地域エネルギーシステムのコスト効率の高い脱炭の中心である。
本稿では,2段階のCEPを抽出する学習支援近似解法を提案する。
本手法では, 直列集約法と比較して最大3.8%のコスト削減効果が得られた。
論文 参考訳(メタデータ) (2024-01-19T01:40:58Z) - Learning From Scenarios for Stochastic Repairable Scheduling [3.9948520633731026]
本研究では,スムーシングに基づく意思決定型学習手法がスケジューリング問題にどのように適応できるかを示す。
本研究では,意思決定に焦点をあてた学習が,このような状況において,どのような状況において技術状況を上回るかを検証するための実験的な評価を含む:シナリオベース最適化。
論文 参考訳(メタデータ) (2023-12-06T13:32:17Z) - Constant-time Motion Planning with Anytime Refinement for Manipulation [17.543746580669662]
本研究では,CTMP(Constant-time Motion Planners)アルゴリズムと組み合わせたリアルタイム改良手法を提案する。
提案するフレームワークは,定数時間アルゴリズムとして動作するため,ユーザ定義時間しきい値内の初期解を高速に生成する。
任意の時間アルゴリズムとして機能し、割り当てられた時間予算内で、ソリューションの品質を反復的に改善します。
論文 参考訳(メタデータ) (2023-11-01T20:40:10Z) - Score Matching-based Pseudolikelihood Estimation of Neural Marked
Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。
具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。
提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文 参考訳(メタデータ) (2023-10-25T02:37:51Z) - Measuring the Stability of Process Outcome Predictions in Online
Settings [4.599862571197789]
本稿では,オンライン予測プロセス監視のためのモデルの安定性を評価するための評価フレームワークを提案する。
このフレームワークは、4つのパフォーマンスメタ尺度を導入している。性能低下の頻度、その大きさ、回復率、パフォーマンスのボラティリティである。
その結果,これらのメタ尺度は,異なるリスクテイクシナリオに対する予測モデルの比較と選択を容易にすることが示された。
論文 参考訳(メタデータ) (2023-10-13T10:37:46Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - ARISE: ApeRIodic SEmi-parametric Process for Efficient Markets without
Periodogram and Gaussianity Assumptions [91.3755431537592]
我々は、効率的な市場を調査するためのApeRI-miodic(ARISE)プロセスを提案する。
ARISEプロセスは、いくつかの既知のプロセスの無限サムとして定式化され、周期スペクトル推定を用いる。
実際に,実世界の市場の効率性を明らかにするために,ARISE関数を適用した。
論文 参考訳(メタデータ) (2021-11-08T03:36:06Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Value of structural health information in partially observable
stochastic environments [0.0]
情報の価値(VoI)と構造健康モニタリング(VoSHM)の理論的・計算的基礎を紹介し,研究する。
この結果から,POMDP政策はVoIの概念を本質的に活用し,各決定ステップにおいて最適な方法で観測行動の導出を行うことが示唆された。
論文 参考訳(メタデータ) (2019-12-28T22:18:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。