論文の概要: Reinforcement Learning Trained Observer Control for Bearings-Only Tracking
- arxiv url: http://arxiv.org/abs/2605.02120v1
- Date: Mon, 04 May 2026 00:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.090625
- Title: Reinforcement Learning Trained Observer Control for Bearings-Only Tracking
- Title(参考訳): ベアリングオンリートラッキングのための強化学習型オブザーバ制御
- Authors: Branko Ristic, Sanjeev Arulampalam,
- Abstract要約: 本稿では、自律型ベアリングのみの移動目標追跡のための強化学習に基づくオブザーバ制御ポリシーを開発する。
報酬関数は、絶対目標位置推定誤差の最小化とCKF推定一貫性の維持という、2つの矛盾する目標に対処するように設計されている。
その結果、DQNの$0.7ドルのポリシーは、正確性と堅牢性の間の最良のトレードオフを達成していることがわかった。
- 参考スコア(独自算出の注目度): 0.9167082845109437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a deep reinforcement learning based observer control policy for autonomous bearings-only tracking of a moving target. The observer manoeuvre problem is formulated as a belief Markov decision process, where the belief state is represented by the posterior of a cubature Kalman filter (CKF). The reward function is designed to address two conflicting objectives: minimising the absolute target position estimation error (Euclidean distance) and maintaining CKF estimation consistency (Mahalanobis distance). The reward is formulated as a geometric interpolation between the two objectives on the Pareto front, parametrised by a weighting factor $β\in [0,1]$. The policy is implemented as a deep Q-network (DQN) trained over 50,000 episodes. Performance is evaluated over 5,000 Monte Carlo episodes and compared against two baselines: the perpendicular-to-bearing heuristic and the D-optimal Fisher information maximisation criterion. The results show that the DQN policy at $β= 0.7$ achieves the best trade-off between accuracy and robustness: it matches the information-theoretic baseline on mean tracking accuracy while reducing the worst-case error by nearly a factor of ten, owing to the implicit filter-consistency regularisation provided by the Mahalanobis term in the reward.
- Abstract(参考訳): 本稿では,自律型ベアリングのみの移動目標追跡のための深層強化学習に基づくオブザーバ制御ポリシーを開発する。
オブザーバの操作問題は、信念マルコフ決定過程として定式化され、その信念状態はキューブカルマンフィルタ(CKF)の後部で表される。
報酬関数は、絶対目標位置推定誤差(ユークリッド距離)の最小化と、CKF推定一貫性(マハラノビス距離)の維持という、2つの矛盾する目標に対処するように設計されている。
報酬はパレート前面の2つの目的の間の幾何学的補間として定式化され、重み付け係数$β\in [0,1]$でパラメトリされる。
このポリシーは、5万エピソード以上のトレーニングを受けたディープQネットワーク(DQN)として実装されている。
5000回以上のモンテカルロエピソードの評価を行い、垂直から垂直までのヒューリスティックとD-最適フィッシャー情報最大化基準の2つの基準線と比較した。
その結果、DQNの$β=0.7$のポリシーは、平均追跡精度で情報理論ベースラインと一致し、最悪の場合の誤差を10倍近く減らし、報酬としてマハラノビス項によって提供される暗黙のフィルタ整合正則化により、精度とロバスト性の間の最良のトレードオフが得られることがわかった。
関連論文リスト
- Reference-Sampled Boltzmann Projection for KL-Regularized RLVR: Target-Matched Weighted SFT, Finite One-Shot Gaps, and Policy Mirror Descent [28.166458412533967]
本稿では,提案手法が固定参照KLVRと等しい基準サンプリング重み付きSFT目標について述べる。
単発Qwen実験は、目標整合重量、一発飽和、リフレッシュサンプラーゲイン、最適化時間の節約の予測証拠を提供する。
論文 参考訳(メタデータ) (2026-05-04T11:10:32Z) - Online Covariance Estimation in Averaged SGD: Improved Batch-Mean Rates and Minimax Optimality via Trajectory Regression [12.805268849262243]
我々はPolyak-Ruppert averaged gradient descent (SGD)のオンライン共分散行列推定について検討した。
この構造は、このボトルネックがSGDドリフトからヘッセンの情報をサブ線形に蓄積していることを明らかにする。
論文 参考訳(メタデータ) (2026-04-12T20:49:33Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - Spectral Sentinel: Scalable Byzantine-Robust Decentralized Federated Learning via Sketched Random Matrix Theory on Blockchain [0.0]
ビザンチンのクライアントは、不均一な(Non-IID)データの下での濃度勾配を中毒する。
本稿では,ビザンチン検出・集約フレームワークであるSpectral Sentinelを提案する。
Polygonネットワーク上でブロックチェーンを統合することで,完全なシステムを実現しています。
論文 参考訳(メタデータ) (2025-12-14T09:43:03Z) - Rough Path Signatures: Learning Neural RDEs for Portfolio Optimization [0.0]
本稿では,絡み合ったログシグナチャをニューラル粗微分方程式のバックボーンに結合する BSDE/2BSDE 解法を提案する。
CVaR方式の端末は左尾リスクをターゲットとし、オプションの2列(2BSDE)のヘッドはリスクに敏感な制御のための曲率推定を提供する。
d=200では、強いベースラインではCVaR(0.99)=9.80%、強いベースラインでは12.00-13.10%、最低HJB残基(0.011)に達し、Zとガンマでは最低RMSEが得られる。
論文 参考訳(メタデータ) (2025-10-12T18:02:12Z) - C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:24:51Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Will My Robot Achieve My Goals? Predicting the Probability that an MDP Policy Reaches a User-Specified Behavior Target [56.99669411766284]
自律的なシステムがタスクを実行する場合、ユーザの目標を達成する確率のキャリブレーションされた見積もりを維持する必要がある。
本稿では,ユーザの目標が目標間隔として指定される設定について検討する。
我々は、共形予測を反転させて確率推定を計算する。
論文 参考訳(メタデータ) (2022-11-29T18:41:20Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。