論文の概要: Multi-Objective Reinforcement Learning for Cognitive Radar Resource Management
- arxiv url: http://arxiv.org/abs/2506.20853v1
- Date: Wed, 25 Jun 2025 21:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.90042
- Title: Multi-Objective Reinforcement Learning for Cognitive Radar Resource Management
- Title(参考訳): 認知レーダ資源管理のための多目的強化学習
- Authors: Ziyang Lu, Subodh Kalia, M. Cenk Gursoy, Chilukuri K. Mohan, Pramod K. Varshney,
- Abstract要約: 我々はこれを多目的最適化問題として定式化し、より深い強化学習を用いて最適解を求める。
本結果は,両アルゴリズムが様々なシナリオに適応できることを示す。
この研究は、より効率的で適応的な認知レーダシステムの開発に寄与する。
- 参考スコア(独自算出の注目度): 13.322245764325125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The time allocation problem in multi-function cognitive radar systems focuses on the trade-off between scanning for newly emerging targets and tracking the previously detected targets. We formulate this as a multi-objective optimization problem and employ deep reinforcement learning to find Pareto-optimal solutions and compare deep deterministic policy gradient (DDPG) and soft actor-critic (SAC) algorithms. Our results demonstrate the effectiveness of both algorithms in adapting to various scenarios, with SAC showing improved stability and sample efficiency compared to DDPG. We further employ the NSGA-II algorithm to estimate an upper bound on the Pareto front of the considered problem. This work contributes to the development of more efficient and adaptive cognitive radar systems capable of balancing multiple competing objectives in dynamic environments.
- Abstract(参考訳): 多機能認知レーダシステムにおける時間割当問題は、新たに出現するターゲットの走査と、事前に検出されたターゲットの追跡とのトレードオフに焦点を当てている。
我々はこれを多目的最適化問題として定式化し、深い強化学習を用いてパレート最適解を見つけ、深い決定論的ポリシー勾配(DDPG)とソフトアクタークリティカル(SAC)アルゴリズムを比較した。
SAC は DDPG と比較して安定性とサンプル効率が向上した。
さらに、NSGA-IIアルゴリズムを用いて、検討された問題のパレート面上の上限を推定する。
この研究は、動的環境における複数の競合する目標のバランスをとることができる、より効率的で適応的な認知レーダシステムの開発に寄与する。
関連論文リスト
- Task Assignment and Exploration Optimization for Low Altitude UAV Rescue via Generative AI Enhanced Multi-agent Reinforcement Learning [44.02103029265148]
UAVにおけるタスク割り当てと探索最適化の多目的最適化問題を定式化する。
我々の目標は、時間とともにシステムの安定性を確保しつつ、タスク完了時間とエネルギー消費を最小限にすることである。
本稿では,HG-MADDPGというアルゴリズムを提案する。このアルゴリズムは,ハンガリーのアルゴリズムと生成拡散モデル(GDM)に基づくマルチエージェント・ディープ決定性ポリシー勾配(MADDPG)アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2025-04-18T08:44:06Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Current Effect-eliminated Optimal Target Assignment and Motion Planning
for a Multi-UUV System [4.62588687215906]
本稿では,海流がもたらす複雑さと課題に対処する革新的なアプローチ(CBNNTAP)を提案する。
バイオインスパイアされたニューラルネットワーク(BINN)アプローチを取り入れ、個々のUUVの最も効率的なパスを予測する。
CBNNTAPアルゴリズムにおける重要な革新は、海流の破壊的な影響に対処する能力である。
論文 参考訳(メタデータ) (2024-01-10T19:38:25Z) - Joint User Association, Interference Cancellation and Power Control for
Multi-IRS Assisted UAV Communications [80.35959154762381]
インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。
既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに焦点を当てている。
我々は,共同IRSユーザアソシエーションのための新しい最適化アルゴリズム,UAVの軌道最適化,逐次干渉キャンセル(SIC)復号命令スケジューリング,電力割り当てを提案する。
論文 参考訳(メタデータ) (2023-12-08T01:57:10Z) - A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文 参考訳(メタデータ) (2023-02-08T16:38:55Z) - Multi-Agent Deep Reinforcement Learning in Vehicular OCC [14.685237010856953]
我々は車載OCCにおけるスペクトル効率最適化手法を提案する。
我々は最適化問題をマルコフ決定プロセス(MDP)としてモデル化し、オンラインで適用可能なソリューションの利用を可能にする。
提案手法の性能を広範囲なシミュレーションにより検証し,提案手法の様々な変種とランダムな手法との比較を行った。
論文 参考訳(メタデータ) (2022-05-05T14:25:54Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with
Reward Shaping [7.132368785057316]
我々は,改良された報酬形成技術を用いて,Deep Deterministic Policy Gradient (DDPG) と Proximal Policy Optimizationアルゴリズムを提案する。
本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。
論文 参考訳(メタデータ) (2020-03-28T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。