論文の概要: Track-MDP: Reinforcement Learning for Target Tracking with Controlled Sensing
- arxiv url: http://arxiv.org/abs/2407.13995v1
- Date: Fri, 19 Jul 2024 02:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:03:23.427785
- Title: Track-MDP: Reinforcement Learning for Target Tracking with Controlled Sensing
- Title(参考訳): Track-MDP:制御センシングによる目標追跡のための強化学習
- Authors: Adarsh M. Subramaniam, Argyrios Gerogiannis, James Z. Hare, Venugopal V. Veeravalli,
- Abstract要約: センサ管理(または制御されたセンシング)による目標追跡のための最先端技術はモデルベースである。
本稿では,対象/対象の運動モデルが観測者にとって未知であるような状況下で,この問題に対する強化学習手法について検討する。
制御センサを用いたトラッキング問題に対して,POMDPの定式化よりも新しいマルコフ決定プロセス(MDP)を提案する。
- 参考スコア(独自算出の注目度): 13.750740785096209
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: State of the art methods for target tracking with sensor management (or controlled sensing) are model-based and are obtained through solutions to Partially Observable Markov Decision Process (POMDP) formulations. In this paper a Reinforcement Learning (RL) approach to the problem is explored for the setting where the motion model for the object/target to be tracked is unknown to the observer. It is assumed that the target dynamics are stationary in time, the state space and the observation space are discrete, and there is complete observability of the location of the target under certain (a priori unknown) sensor control actions. Then, a novel Markov Decision Process (MDP) rather than POMDP formulation is proposed for the tracking problem with controlled sensing, which is termed as Track-MDP. In contrast to the POMDP formulation, the Track-MDP formulation is amenable to an RL based solution. It is shown that the optimal policy for the Track-MDP formulation, which is approximated through RL, is guaranteed to track all significant target paths with certainty. The Track-MDP method is then compared with the optimal POMDP policy, and it is shown that the infinite horizon tracking reward of the optimal Track-MDP policy is the same as that of the optimal POMDP policy. In simulations it is demonstrated that Track-MDP based RL leads to a policy that can track the target with high accuracy.
- Abstract(参考訳): センサ管理(または制御されたセンシング)による目標追跡のための最先端技術はモデルベースであり、部分観測可能なマルコフ決定プロセス(POMDP)の定式化によって得られる。
本稿では、対象/対象の運動モデルが観測者にとって未知であるような状況下で、その問題に対する強化学習(RL)アプローチについて検討する。
目標ダイナミクスは時間的に定常であり、状態空間と観測空間は離散的であり、特定の(事前不明な)センサ制御動作下での目標の位置を完全に観測可能であると仮定する。
そこで,POMDPの定式化よりも新しいマルコフ決定プロセス(MDP)が,トラックMDPと呼ばれる制御センシングのトラッキング問題に対して提案される。
POMDP の定式化とは対照的に、トラック-MDP の定式化は RL ベースの解に対して有効である。
RLにより近似されたトラックMDP定式化の最適方針は、すべての重要な目標経路を確実に追跡することが保証されている。
Track-MDP 法は最適 POMDP 法と比較し,最適 Track-MDP 法における無限水平追尾報酬は最適 POMDP 法と同一であることを示した。
シミュレーションでは、トラックMDPベースのRLが目標を高精度に追跡できるポリシーに導かれることを示した。
関連論文リスト
- POMDP-Driven Cognitive Massive MIMO Radar: Joint Target Detection-Tracking In Unknown Disturbances [42.99053410696693]
この研究は、トラッキングと検出タスクを強化するために、部分的に観測可能なマルコフ決定プロセスフレームワークの適用について検討する。
提案手法では,ノイズ統計に関するアプリオリ知識を必要としないオンラインアルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-10-23T15:34:11Z) - RTracker: Recoverable Tracking via PN Tree Structured Memory [71.05904715104411]
本稿では,木構造メモリを用いてトラッカーと検出器を動的に関連付け,自己回復を可能にするRTrackerを提案する。
具体的には,正負と負のターゲットサンプルを時系列に保存し,維持する正負のツリー構造メモリを提案する。
我々の中核となる考え方は、正と負の目標カテゴリーの支持サンプルを用いて、目標損失の信頼性評価のための相対的距離に基づく基準を確立することである。
論文 参考訳(メタデータ) (2024-03-28T08:54:40Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - BATS: Best Action Trajectory Stitching [22.75880303352508]
本稿では,データセットに新たな遷移を加えることで,ログデータ上に表形式のマルコフ決定プロセス(MDP)を形成するアルゴリズムを提案する。
この性質により、値関数の上限と下限を適切な距離の測度に設定できることを示す。
本稿では,提案アルゴリズムが生成したMDPの最適ポリシーを単純にクローンする動作が,この問題を回避する一例を示す。
論文 参考訳(メタデータ) (2022-04-26T01:48:32Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。