論文の概要: An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart
Target Tracking
- arxiv url: http://arxiv.org/abs/2402.12015v1
- Date: Mon, 19 Feb 2024 10:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:18:51.657543
- Title: An Index Policy Based on Sarsa and Q-learning for Heterogeneous Smart
Target Tracking
- Title(参考訳): 異種スマートターゲット追跡のためのsarsaとq-learningに基づく索引ポリシー
- Authors: Yuhang Hao and Zengfu Wang and Jing Fu and Quan Pan
- Abstract要約: 我々は、長期追跡報酬を最大化するための新しいポリシー、すなわちISQを提案する。
数値解析の結果,提案したISQポリシーは従来のQラーニング法よりも優れていた。
- 参考スコア(独自算出の注目度): 13.814608044569967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In solving the non-myopic radar scheduling for multiple smart target tracking
within an active and passive radar network, we need to consider both short-term
enhanced tracking performance and a higher probability of target maneuvering in
the future with active tracking. Acquiring the long-term tracking performance
while scheduling the beam resources of active and passive radars poses a
challenge. To address this challenge, we model this problem as a Markov
decision process consisting of parallel restless bandit processes. Each bandit
process is associated with a smart target, of which the estimation state
evolves according to different discrete dynamic models for different actions -
whether or not the target is being tracked. The discrete state is defined by
the dynamic mode. The problem exhibits the curse of dimensionality, where
optimal solutions are in general intractable. We resort to heuristics through
the famous restless multi-armed bandit techniques. It follows with efficient
scheduling policies based on the indices that are real numbers representing the
marginal rewards of taking different actions. For the inevitable practical case
with unknown transition matrices, we propose a new method that utilizes the
forward Sarsa and backward Q-learning to approximate the indices through
adapting the state-action value functions, or equivalently the Q-functions, and
propose a new policy, namely ISQ, aiming to maximize the long-term tracking
rewards. Numerical results demonstrate that the proposed ISQ policy outperforms
conventional Q-learning-based methods and rapidly converges to the well-known
Whittle index policy with revealed state transition models, which is considered
the benchmark.
- Abstract(参考訳): 能動型・受動型レーダネットワーク内における複数のスマートターゲット追跡のための非明視的レーダスケジューリングの解決には,短期的な追跡性能と将来的な目標追従の可能性の両方を考慮する必要がある。
アクティブレーダと受動レーダのビームリソースをスケジューリングしながら、長期追跡性能を取得することは、課題となる。
この課題に対処するため、我々はこの問題を並列restless banditプロセスからなるマルコフ決定プロセスとしてモデル化する。
各バンディットプロセスはスマートターゲットに関連付けられ、ターゲットが追跡されているか否かの異なるアクションに対する異なる離散的動的モデルに従って推定状態が進化する。
離散状態は動的モードによって定義される。
この問題は、最適解が一般に難解であるような次元性の呪いを示す。
我々は、有名なrestless multi-armed bandit技術を通じてヒューリスティックスに頼る。
これは、異なるアクションをとる際の限界報酬を表す実数である指標に基づく効率的なスケジューリングポリシーに従う。
未知遷移行列の必然的な実例に対して,状態動作値関数や等価なq関数を適応させることで,前方sarsaと後方q-learningを用いてインデックスを近似する新しい手法を提案し,長期追跡報酬を最大化するための新しい方針isqを提案する。
数値的な結果から,提案手法は従来のQ-ラーニング手法よりも優れており,そのベンチマークである状態遷移モデルを用いて,よく知られたWhittleインデックスポリシーに迅速に収束することが示された。
関連論文リスト
- Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Learning Robust Policies for Generalized Debris Capture with an
Automated Tether-Net System [2.0429716172112617]
本稿では,政策最適化アプローチとネット力学シミュレーションを統合した強化学習フレームワークを提案する。
状態遷移モデルは、状態推定と起動動作に合成不確実性を組み込むために検討される。
トレーニングされたポリシーは、個々のシナリオ上で実行される信頼性ベースの最適化で得られたものに近いキャプチャパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-01-11T20:09:05Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Learning to Track Dynamic Targets in Partially Known Environments [48.49957897251128]
我々は、アクティブな目標追跡を解決するために、深層強化学習アプローチを用いる。
特に,アクティブ・トラッカー・ターゲティング・ネットワーク(ATTN)を導入し,アクティブ・ターゲティング・ターゲティングの主要なタスクを解決するための統一的なRLポリシーを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:45:24Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。