Fugu-MT 論文翻訳(概要): ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates

論文の概要: ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates

arxiv url: http://arxiv.org/abs/2403.01564v3
Date: Tue, 20 Aug 2024 21:52:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 22:44:58.274638
Title: ComTraQ-MPC: Meta-Trained DQN-MPC Integration for Trajectory Tracking with Limited Active Localization Updates
Title（参考訳）: ComTraQ-MPC: 限定アクティブローカライゼーション更新による軌跡追跡のためのメタトレーニングDQN-MPC統合
Authors: Gokul Puthumanaillam, Manav Vora, Melkior Ornik,
Abstract要約: 本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。
参考スコア（独自算出の注目度）: 1.1470070927586018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimal decision-making for trajectory tracking in partially observable, stochastic environments where the number of active localization updates -- the process by which the agent obtains its true state information from the sensors -- are limited, presents a significant challenge. Traditional methods often struggle to balance resource conservation, accurate state estimation and precise tracking, resulting in suboptimal performance. This problem is particularly pronounced in environments with large action spaces, where the need for frequent, accurate state data is paramount, yet the capacity for active localization updates is restricted by external limitations. This paper introduces ComTraQ-MPC, a novel framework that combines Deep Q-Networks (DQN) and Model Predictive Control (MPC) to optimize trajectory tracking with constrained active localization updates. The meta-trained DQN ensures adaptive active localization scheduling, while the MPC leverages available state information to improve tracking. The central contribution of this work is their reciprocal interaction: DQN's update decisions inform MPC's control strategy, and MPC's outcomes refine DQN's learning, creating a cohesive, adaptive system. Empirical evaluations in simulated and real-world settings demonstrate that ComTraQ-MPC significantly enhances operational efficiency and accuracy, providing a generalizable and approximately optimal solution for trajectory tracking in complex partially observable environments.
Abstract（参考訳）: エージェントがセンサーから真の状態情報を取得するプロセスである、アクティブなローカライゼーション更新の回数が制限された部分的に観測可能な確率的な環境での軌道追跡の最適決定は、重大な課題である。伝統的な手法は、しばしば資源の保存、正確な状態推定、正確な追跡のバランスをとるのに苦労する。この問題は、頻繁に正確な状態データを必要とする環境において特に顕著であるが、アクティブなローカライゼーション更新の能力は外部の制限によって制限されている。本稿では,DQN(Deep Q-Networks)とモデル予測制御(Model Predictive Control,MPC)を組み合わせた新しいフレームワークであるComTraQ-MPCを紹介する。メタトレーニングされたDQNは適応的なアクティブなローカライゼーションスケジューリングを保証し、MPCは利用可能な状態情報を活用してトラッキングを改善する。 DQNの更新決定は、MPCのコントロール戦略を知らせ、MPCの結果はDQNの学習を洗練させ、結合的で適応的なシステムを作り出す。 ComTraQ-MPCは、複雑な部分的に観測可能な環境での軌道追跡を一般化し、ほぼ最適な解を提供する。

関連論文リスト

Information-Theoretic Framework for Self-Adapting Model Predictive Controllers [0.0]
モデル予測制御(MPC)は無人航空機(UAV)のような自律システムにとって重要な技術である MPCは、動的障害やシフトシステムダイナミクスといったリアルタイムな変化に適応するのに苦労する。本稿では,IDT(Information Digital Twin)による適応性を考慮した情報理論フレームワークを提案する。 IDTは、入力間の情報フロー、制御アクション、UAV動作を監視し、定量化する。
論文参考訳（メタデータ） (2026-03-01T21:44:02Z)
DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。 DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文参考訳（メタデータ） (2026-02-05T17:07:42Z)
In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文参考訳（メタデータ） (2026-01-06T13:41:31Z)
Generative Sequential Notification Optimization via Multi-Objective Decision Transformers [9.542285455613927]
本稿では,政策学習をリターン条件付き教師あり学習として再編成する決定変換器ベースのフレームワークを提案する。コントリビューションには、CQLと実世界の比較、非エポゾディックなタスクに適したマルチリワード設計、リターン・ツー・ゴ・ゴ・コンディショニングのための量子回帰アプローチなどが含まれます。
論文参考訳（メタデータ） (2025-09-02T16:09:02Z)
ProCause: Generating Counterfactual Outcomes to Evaluate Prescriptive Process Monitoring Methods [2.4010681808413397]
Prescriptive Process Monitoring (PresPM)は、イベントログデータに基づいたリアルタイム介入によるプロセスを最適化することに焦点を当てている。 PresPMメソッドの評価は、データセット内のすべての介入アクションに対して、基調的な結果が欠如しているため、難しい。 ProCauseはシーケンシャルモデルと非シーケンシャルモデルの両方をサポートするジェネレーティブアプローチである。
論文参考訳（メタデータ） (2025-08-31T10:54:43Z)
Causal-Aware Intelligent QoE Optimization for VR Interaction with Adaptive Keyframe Extraction [6.2819120598047]
本稿では,VRゲームにおけるクオリティ・オブ・エクスペリエンス(QoE)を最大化するインテリジェントなフレームワークを提案する。適応抽出と因果認識強化学習(RL)の統合実験の結果、我々のフレームワークは対話的なレイテンシを著しく低減し、QoEを強化し、公平性を維持することがわかった。
論文参考訳（メタデータ） (2025-06-24T07:32:34Z)
Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。 textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文参考訳（メタデータ） (2025-06-02T04:21:56Z)
DP-LET: An Efficient Spatio-Temporal Network Traffic Prediction Framework [13.65226228907662]
DP-LETは、効率的な時間的ネットワークトラフィック予測フレームワークである。 DP-LETはデータ処理モジュール、ローカル機能拡張モジュール、トランスフォーマーベースの予測モジュールで構成される。実世界のセルラートラフィック予測はDP-LETの実用性を示す。
論文参考訳（メタデータ） (2025-04-04T02:52:43Z)
Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。 ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文参考訳（メタデータ） (2025-03-24T03:19:45Z)
Pull-Based Query Scheduling for Goal-Oriented Semantic Communication [14.787190731074322]
本稿では、プルベースステータス更新システムにおけるゴール指向セマンティック通信のためのクエリスケジューリングについて述べる。本稿では,有効度尺度(GoE)を導入し,長期的有効性分析に累積的視点理論(CPT)を統合する。本稿では、動的プログラミングに基づくモデルベースソリューションと、最先端の深層強化学習(DRL)アルゴリズムを用いたモデルフリーソリューションを提案する。
論文参考訳（メタデータ） (2025-03-09T18:51:14Z)
Dynamic Weight Adjusting Deep Q-Networks for Real-Time Environmental Adaptation [3.2162648244439684]
本研究では、動的重み調整をDeep Q-Networks(DQN)に統合し、適応性を高めることを検討する。これらの調整は、経験リプレイにおけるサンプリング確率を変更して、モデルがより重要な遷移に焦点を合わせるようにすることで実施する。動的環境をうまくナビゲートする新しいDQNのためのインタラクティブ・ダイナミック・アセスメント・メソッド(IDEM)を設計する。
論文参考訳（メタデータ） (2024-11-04T19:47:23Z)
Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。 BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文参考訳（メタデータ） (2024-10-06T17:12:10Z)
Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。理論的には,本手法の単調改善と収束性を最適解に証明する。
論文参考訳（メタデータ） (2024-06-20T01:55:08Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文参考訳（メタデータ） (2023-12-25T11:48:55Z)
Age of Semantics in Cooperative Communications: To Expedite Simulation Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文参考訳（メタデータ） (2022-09-19T11:55:28Z)
Revisiting Communication-Efficient Federated Learning with Balanced Global and Local Updates [14.851898446967672]
本研究では,地域研修の数とグローバルアグリゲーションの数との最適なトレードオフを調査し,分析する。提案手法は予測精度の点で性能が向上し,ベースライン方式よりもはるかに高速に収束する。
論文参考訳（メタデータ） (2022-05-03T13:05:26Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
Distributed Q-Learning with State Tracking for Multi-agent Networked Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文参考訳（メタデータ） (2020-12-22T22:03:49Z)
Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文参考訳（メタデータ） (2020-06-16T05:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。