論文の概要: ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates
- arxiv url: http://arxiv.org/abs/2403.01564v3
- Date: Tue, 20 Aug 2024 21:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:44:58.274638
- Title: ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates
- Title(参考訳): ComTraQ-MPC: 限定アクティブローカライゼーション更新による軌跡追跡のためのメタトレーニングDQN-MPC統合
- Authors: Gokul Puthumanaillam, Manav Vora, Melkior Ornik,
- Abstract要約: 本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。
- 参考スコア(独自算出の注目度): 1.1470070927586018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimal decision-making for trajectory tracking in partially observable, stochastic environments where the number of active localization updates -- the process by which the agent obtains its true state information from the sensors -- are limited, presents a significant challenge. Traditional methods often struggle to balance resource conservation, accurate state estimation and precise tracking, resulting in suboptimal performance. This problem is particularly pronounced in environments with large action spaces, where the need for frequent, accurate state data is paramount, yet the capacity for active localization updates is restricted by external limitations. This paper introduces ComTraQ-MPC, a novel framework that combines Deep Q-Networks (DQN) and Model Predictive Control (MPC) to optimize trajectory tracking with constrained active localization updates. The meta-trained DQN ensures adaptive active localization scheduling, while the MPC leverages available state information to improve tracking. The central contribution of this work is their reciprocal interaction: DQN's update decisions inform MPC's control strategy, and MPC's outcomes refine DQN's learning, creating a cohesive, adaptive system. Empirical evaluations in simulated and real-world settings demonstrate that ComTraQ-MPC significantly enhances operational efficiency and accuracy, providing a generalizable and approximately optimal solution for trajectory tracking in complex partially observable environments.
- Abstract(参考訳): エージェントがセンサーから真の状態情報を取得するプロセスである、アクティブなローカライゼーション更新の回数が制限された部分的に観測可能な確率的な環境での軌道追跡の最適決定は、重大な課題である。
伝統的な手法は、しばしば資源の保存、正確な状態推定、正確な追跡のバランスをとるのに苦労する。
この問題は、頻繁に正確な状態データを必要とする環境において特に顕著であるが、アクティブなローカライゼーション更新の能力は外部の制限によって制限されている。
本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。
メタトレーニングされたDQNは適応的なアクティブなローカライゼーションスケジューリングを保証し、MPCは利用可能な状態情報を活用してトラッキングを改善する。
DQNの更新決定は、MPCのコントロール戦略を知らせ、MPCの結果はDQNの学習を洗練させ、結合的で適応的なシステムを作り出す。
ComTraQ-MPCは、複雑な部分的に観測可能な環境での軌道追跡を一般化し、ほぼ最適な解を提供する。
関連論文リスト
- Dynamic Weight Adjusting Deep Q-Networks for Real-Time Environmental Adaptation [3.2162648244439684]
本研究では、動的重み調整をDeep Q-Networks(DQN)に統合し、適応性を高めることを検討する。
これらの調整は、経験リプレイにおけるサンプリング確率を変更して、モデルがより重要な遷移に焦点を合わせるようにすることで実施する。
動的環境をうまくナビゲートする新しいDQNのためのインタラクティブ・ダイナミック・アセスメント・メソッド(IDEM)を設計する。
論文 参考訳(メタデータ) (2024-11-04T19:47:23Z) - Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文 参考訳(メタデータ) (2024-10-06T17:12:10Z) - Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Revisiting Communication-Efficient Federated Learning with Balanced
Global and Local Updates [14.851898446967672]
本研究では,地域研修の数とグローバルアグリゲーションの数との最適なトレードオフを調査し,分析する。
提案手法は予測精度の点で性能が向上し,ベースライン方式よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2022-05-03T13:05:26Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。