論文の概要: An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart
Target Tracking
- arxiv url: http://arxiv.org/abs/2402.12015v1
- Date: Mon, 19 Feb 2024 10:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:18:51.657543
- Title: An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart
Target Tracking
- Title(参考訳): 異種スマートターゲット追跡のためのsarsaとq-learningに基づく索引ポリシー
- Authors: Yuhang Hao and Zengfu Wang and Jing Fu and Quan Pan
- Abstract要約: 我々は、長期追跡報酬を最大化するための新しいポリシー、すなわちISQを提案する。
数値解析の結果,提案したISQポリシーは従来のQラーニング法よりも優れていた。
- 参考スコア(独自算出の注目度): 13.814608044569967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In solving the non-myopic radar scheduling for multiple smart target tracking
within an active and passive radar network, we need to consider both short-term
enhanced tracking performance and a higher probability of target maneuvering in
the future with active tracking. Acquiring the long-term tracking performance
while scheduling the beam resources of active and passive radars poses a
challenge. To address this challenge, we model this problem as a Markov
decision process consisting of parallel restless bandit processes. Each bandit
process is associated with a smart target, of which the estimation state
evolves according to different discrete dynamic models for different actions -
whether or not the target is being tracked. The discrete state is defined by
the dynamic mode. The problem exhibits the curse of dimensionality, where
optimal solutions are in general intractable. We resort to heuristics through
the famous restless multi-armed bandit techniques. It follows with efficient
scheduling policies based on the indices that are real numbers representing the
marginal rewards of taking different actions. For the inevitable practical case
with unknown transition matrices, we propose a new method that utilizes the
forward Sarsa and backward Q-learning to approximate the indices through
adapting the state-action value functions, or equivalently the Q-functions, and
propose a new policy, namely ISQ, aiming to maximize the long-term tracking
rewards. Numerical results demonstrate that the proposed ISQ policy outperforms
conventional Q-learning-based methods and rapidly converges to the well-known
Whittle index policy with revealed state transition models, which is considered
the benchmark.
- Abstract(参考訳): 能動型・受動型レーダネットワーク内における複数のスマートターゲット追跡のための非明視的レーダスケジューリングの解決には,短期的な追跡性能と将来的な目標追従の可能性の両方を考慮する必要がある。
アクティブレーダと受動レーダのビームリソースをスケジューリングしながら、長期追跡性能を取得することは、課題となる。
この課題に対処するため、我々はこの問題を並列restless banditプロセスからなるマルコフ決定プロセスとしてモデル化する。
各バンディットプロセスはスマートターゲットに関連付けられ、ターゲットが追跡されているか否かの異なるアクションに対する異なる離散的動的モデルに従って推定状態が進化する。
離散状態は動的モードによって定義される。
この問題は、最適解が一般に難解であるような次元性の呪いを示す。
我々は、有名なrestless multi-armed bandit技術を通じてヒューリスティックスに頼る。
これは、異なるアクションをとる際の限界報酬を表す実数である指標に基づく効率的なスケジューリングポリシーに従う。
未知遷移行列の必然的な実例に対して,状態動作値関数や等価なq関数を適応させることで,前方sarsaと後方q-learningを用いてインデックスを近似する新しい手法を提案し,長期追跡報酬を最大化するための新しい方針isqを提案する。
数値的な結果から,提案手法は従来のQ-ラーニング手法よりも優れており,そのベンチマークである状態遷移モデルを用いて,よく知られたWhittleインデックスポリシーに迅速に収束することが示された。
関連論文リスト
- POMDP-Driven Cognitive Massive MIMO Radar: Joint Target Detection-Tracking In Unknown Disturbances [42.99053410696693]
この研究は、トラッキングと検出タスクを強化するために、部分的に観測可能なマルコフ決定プロセスフレームワークの適用について検討する。
提案手法では,ノイズ統計に関するアプリオリ知識を必要としないオンラインアルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-10-23T15:34:11Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System [2.0429716172112617]
本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-11T20:09:05Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Learning to Track Dynamic Targets in Partially Known Environments [48.49957897251128]
我々は、アクティブな目標追跡を解決するために、深層強化学習アプローチを用いる。
特に,アクティブ・トラッカー・ターゲティング・ネットワーク(ATTN)を導入し,アクティブ・ターゲティング・ターゲティングの主要なタスクを解決するための統一的なRLポリシーを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:45:24Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。