論文の概要: Neural Laplace Control for Continuous-time Delayed Systems
- arxiv url: http://arxiv.org/abs/2302.12604v1
- Date: Fri, 24 Feb 2023 12:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 13:37:31.454554
- Title: Neural Laplace Control for Continuous-time Delayed Systems
- Title(参考訳): 連続時間遅れシステムのニューラルラプラス制御
- Authors: Samuel Holt, Alihan H\"uy\"uk, Zhaozhi Qian, Hao Sun, Mihaela van der
Schaar
- Abstract要約: 本稿では,ニューラルラプラス力学モデルとモデル予測制御(MPC)プランナを組み合わせた連続時間モデルに基づくオフラインRL法を提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
- 参考スコア(独自算出の注目度): 76.81202657759222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world offline reinforcement learning (RL) problems involve
continuous-time environments with delays. Such environments are characterized
by two distinctive features: firstly, the state x(t) is observed at irregular
time intervals, and secondly, the current action a(t) only affects the future
state x(t + g) with an unknown delay g > 0. A prime example of such an
environment is satellite control where the communication link between earth and
a satellite causes irregular observations and delays. Existing offline RL
algorithms have achieved success in environments with irregularly observed
states in time or known delays. However, environments involving both irregular
observations in time and unknown delays remains an open and challenging
problem. To this end, we propose Neural Laplace Control, a continuous-time
model-based offline RL method that combines a Neural Laplace dynamics model
with a model predictive control (MPC) planner--and is able to learn from an
offline dataset sampled with irregular time intervals from an environment that
has a inherent unknown constant delay. We show experimentally on
continuous-time delayed environments it is able to achieve near expert policy
performance.
- Abstract(参考訳): 実世界のオフライン強化学習(rl)問題の多くは、遅延を伴う連続時間環境を伴う。
第一に、状態 x(t) は不規則な時間間隔で観測され、第二に、現在の動作 a(t) は、未知の遅延 g > 0 を持つ将来の状態 x(t + g) にのみ影響する。
そのような環境の典型的な例は、地球と衛星間の通信リンクが不規則な観測と遅延を引き起こす衛星制御である。
既存のオフラインRLアルゴリズムは、不規則に観測された状態や既知の遅延のある環境で成功している。
しかしながら、不規則な観測時間と未知の遅延の両方を含む環境は、オープンで困難な問題である。
そこで本研究では,ニューラルラプラスダイナミクスモデルとモデル予測制御(mpc)プランナーを組み合わせた,連続時間モデルに基づくオフラインrl手法であるneural laplace controlを提案する。
専門家の政策性能に近い連続的な遅延環境を実験的に示す。
関連論文リスト
- Unveiling Delay Effects in Traffic Forecasting: A Perspective from
Spatial-Temporal Delay Differential Equations [20.174094418301245]
交通流予測は交通計画と管理の基本的な研究課題である。
近年,グラフニューラルネットワーク (GNN) とリカレントニューラルネットワーク (RNN) は交通流予測のための空間的時間的相関を捉えることに成功している。
1) GNNでのメッセージパッシングは即時であり、実際には近隣ノード間の空間的メッセージインタラクションは遅延する可能性がある。
論文 参考訳(メタデータ) (2024-02-02T08:55:23Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - MTD: Multi-Timestep Detector for Delayed Streaming Perception [0.5439020425819]
ストリーミング知覚は、自律運転システムの遅延と精度を評価するために使用される、世界の現在の状態を報告するタスクである。
本稿では,マルチブランチ将来の予測に動的ルーティングを利用するエンドツーエンド検出器MTDを提案する。
提案手法はArgoverse-HDデータセットを用いて評価され,実験結果から,様々な遅延設定における最先端性能が得られたことが示された。
論文 参考訳(メタデータ) (2023-09-13T06:23:58Z) - Correlation-aware Spatial-Temporal Graph Learning for Multivariate
Time-series Anomaly Detection [67.60791405198063]
時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。
CST-GLは、多変量時系列相関学習モジュールを介してペアの相関を明示的にキャプチャする。
新規な異常スコアリング成分をCST-GLにさらに統合し、純粋に教師なしの方法で異常の度合いを推定する。
論文 参考訳(メタデータ) (2023-07-17T11:04:27Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - DaDe: Delay-adaptive Detector for Streaming Perception [0.0]
リアルタイム環境では、処理が終了すると周囲環境が変化する。
リアルタイム映像認識のレイテンシと精度を評価するために,ストリーム認識を提案する。
我々は,処理遅延をリアルタイムに反映し,最も合理的な結果が得られるモデルを開発した。
論文 参考訳(メタデータ) (2022-12-22T09:25:46Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Neural ODE Processes [64.10282200111983]
NDP(Neural ODE Process)は、Neural ODEの分布によって決定される新しいプロセスクラスである。
我々のモデルは,少数のデータポイントから低次元システムのダイナミクスを捉えることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T09:32:06Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z) - Non-Stationary Delayed Bandits with Intermediate Observations [10.538264213183076]
オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。
中間観測による非定常遅延帯域の問題を紹介する。
UCRLに基づく効率的なアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。
論文 参考訳(メタデータ) (2020-06-03T09:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。