論文の概要: Universal Learning Waveform Selection Strategies for Adaptive Target
Tracking
- arxiv url: http://arxiv.org/abs/2202.05294v1
- Date: Thu, 10 Feb 2022 19:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 15:19:51.100631
- Title: Universal Learning Waveform Selection Strategies for Adaptive Target
Tracking
- Title(参考訳): 適応的目標追跡のためのユニバーサルラーニング波形選択戦略
- Authors: Charles E. Thornton, R. Michael Buehrer, Harpreet S. Dhillon, Anthony
F. Martone
- Abstract要約: 本研究は,任意のレーダシーンにおいてベルマン最適性を実現するシーケンシャル波形選択法を開発した。
Context-Tree Weighting (CTW) 法のマルチアルファ版に基づくアルゴリズムは、波形・アジャイル追跡問題の幅広いクラスを最適に解くために使用できる。
- 参考スコア(独自算出の注目度): 42.4297040396286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online selection of optimal waveforms for target tracking with active sensors
has long been a problem of interest. Many conventional solutions utilize an
estimation-theoretic interpretation, in which a waveform-specific
Cram\'{e}r-Rao lower bound on measurement error is used to select the optimal
waveform for each tracking step. However, this approach is only valid in the
high SNR regime, and requires a rather restrictive set of assumptions regarding
the target motion and measurement models. Further, due to computational
concerns, many traditional approaches are limited to near-term, or myopic,
optimization, even though radar scenes exhibit strong temporal correlation.
More recently, reinforcement learning has been proposed for waveform selection,
in which the problem is framed as a Markov decision process (MDP), allowing for
long-term planning. However, a major limitation of reinforcement learning is
that the memory length of the underlying Markov process is often unknown for
realistic target and channel dynamics, and a more general framework is
desirable. This work develops a universal sequential waveform selection scheme
which asymptotically achieves Bellman optimality in any radar scene which can
be modeled as a $U^{\text{th}}$ order Markov process for a finite, but unknown,
integer $U$. Our approach is based on well-established tools from the field of
universal source coding, where a stationary source is parsed into variable
length phrases in order to build a context-tree, which is used as a
probabalistic model for the scene's behavior. We show that an algorithm based
on a multi-alphabet version of the Context-Tree Weighting (CTW) method can be
used to optimally solve a broad class of waveform-agile tracking problems while
making minimal assumptions about the environment's behavior.
- Abstract(参考訳): アクティブセンサーを用いた目標追跡のための最適波形のオンライン選択は、長年の関心事であった。
多くの従来の解法では、各追従ステップの最適な波形を選択するために、測定誤差の波形固有のクレージュ'{e}r-rao下限を用いる推定理論的解釈を用いる。
しかし、このアプローチは高いSNR体制においてのみ有効であり、目標運動と測定モデルに関する仮定のかなり限定的なセットを必要とする。
さらに、計算上の懸念から、レーダーシーンが強い時間的相関を示すにもかかわらず、多くの伝統的なアプローチは短期的、あるいは近視的最適化に限定されている。
近年, 波形選択のための強化学習が提案されており, 問題はマルコフ決定過程 (mdp) としてフレーム化され, 長期計画が可能となっている。
しかし、強化学習の大きな制限は、ベースとなるマルコフプロセスのメモリ長が現実のターゲットやチャネルのダイナミクスでは未知であり、より一般的なフレームワークが望ましいことである。
この研究は、有限だが未知の整数$U$に対して$U^{\text{th}}$ Order Markovプロセスとしてモデル化できる任意のレーダシーンにおいて、ベルマン最適性を漸近的に達成する普遍的なシーケンシャル波形選択スキームを開発する。
本手法は,シーンの振る舞いの確率論的モデルとして使用されるコンテキストツリーを構築するために,静止したソースを可変長のフレーズに解析する,ユニバーサル・ソース・コーディングの分野で確立されたツールに基づいている。
本研究では,CTW(Context-Tree Weighting)手法のマルチアルファ版に基づくアルゴリズムを用いて,環境の挙動を最小限に抑えつつ,広範囲な波形の追跡問題を最適に解くことができることを示す。
関連論文リスト
- Non-iterative Optimization of Trajectory and Radio Resource for Aerial Network [7.824710236769593]
我々は,空中IoTネットワークにおける共同軌道計画,ユーザアソシエーション,資源配分,電力制御の問題に対処する。
我々のフレームワークは、遺伝的、木探索、強化学習といった様々な軌道計画アルゴリズムを組み込むことができる。
論文 参考訳(メタデータ) (2024-05-02T14:21:29Z) - FlowPG: Action-constrained Policy Gradient with Normalizing Flows [14.98383953401637]
ACRL(Action-Constrained reinforcement learning)は、安全クリティカルなリソース関連意思決定問題を解決するための一般的な手法である。
ACRLの最大の課題は、各ステップにおける制約を満たす有効なアクションを取るエージェントを確保することである。
論文 参考訳(メタデータ) (2024-02-07T11:11:46Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - An Online Prediction Approach Based on Incremental Support Vector
Machine for Dynamic Multiobjective Optimization [19.336520152294213]
インクリメンタルサポートベクトルマシン(ISVM)に基づく新しい予測アルゴリズムを提案する。
動的多目的最適化問題(DMOP)の解決をオンライン学習プロセスとして扱う。
提案アルゴリズムは動的多目的最適化問題に効果的に取り組むことができる。
論文 参考訳(メタデータ) (2021-02-24T08:51:23Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A Reinforcement Learning based approach for Multi-target Detection in
Massive MIMO radar [12.982044791524494]
本稿では,MMIMO(Multiple input Multiple output)認知レーダ(CR)におけるマルチターゲット検出の問題点について考察する。
本稿では,未知の外乱統計の存在下での認知的マルチターゲット検出のための強化学習(RL)に基づくアルゴリズムを提案する。
定常環境と動的環境の両方において提案したRLアルゴリズムの性能を評価するため, 数値シミュレーションを行った。
論文 参考訳(メタデータ) (2020-05-10T16:29:06Z) - A data-driven choice of misfit function for FWI using reinforcement
learning [0.0]
我々は、DQN(Deep-Q Network)を用いて最適なポリシーを学習し、異なる不適合関数を切り替える適切なタイミングを決定する。
具体的には、従来のL2-ノルムミスフィット関数やOTMF(Optimal-transport Match-filter)のミスフィットをいつ使うべきかを予測するために状態-アクション値関数(Q)を訓練する。
論文 参考訳(メタデータ) (2020-02-08T12:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。