Fugu-MT 論文翻訳(概要): Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning

論文の概要: Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2012.09156v1
Date: Wed, 16 Dec 2020 18:47:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-03 08:49:10.419715
Title: Learning Accurate Long-term Dynamics for Model-based Reinforcement Learning
Title（参考訳）: モデルベース強化学習のための高精度長期ダイナミクスの学習
Authors: Nathan O. Lambert, Albert Wilcox, Howard Zhang, Kristofer S. J. Pister, Roberto Calandra
Abstract要約: より長い地平線で安定的に予測するために, 状態作用データに対する教師付き学習のための新しいパラメータ化を提案する。シミュレーションおよび実験によるロボット作業の結果,軌道に基づくモデルにより,より正確な長期予測が得られた。
参考スコア（独自算出の注目度）: 7.194382512848327
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurately predicting the dynamics of robotic systems is crucial for model-based control and reinforcement learning. The most common way to estimate dynamics is by fitting a one-step ahead prediction model and using it to recursively propagate the predicted state distribution over long horizons. Unfortunately, this approach is known to compound even small prediction errors, making long-term predictions inaccurate. In this paper, we propose a new parametrization to supervised learning on state-action data to stably predict at longer horizons -- that we call a trajectory-based model. This trajectory-based model takes an initial state, a future time index, and control parameters as inputs, and predicts the state at the future time. Our results in simulated and experimental robotic tasks show that our trajectory-based models yield significantly more accurate long term predictions, improved sample efficiency, and ability to predict task reward.
Abstract（参考訳）: ロボットシステムのダイナミクスを正確に予測することは、モデルに基づく制御と強化学習に不可欠である。ダイナミクスを推定する最も一般的な方法は、一段階の予測モデルに当てはめ、それを用いて長い地平線上の予測状態分布を再帰的に伝播させることである。残念ながら、このアプローチは小さな予測誤差を複雑にすることで、長期的な予測が不正確なことが知られている。本稿では,より長い地平線で安定に予測するために,状態行動データの教師付き学習を行うための新しいパラメータ化を提案する。この軌道ベースモデルでは、初期状態、将来の時間指標、およびパラメータを入力として制御し、将来の状態を予測する。シミュレーションおよび実験によるロボット作業の結果、軌道に基づくモデルにより、より正確な長期予測、サンプル効率の向上、タスク報酬予測能力が得られることが示された。

関連論文リスト

ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。学習タスクを再編成し、慣性参照からの残留偏差を予測する。 NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文参考訳（メタデータ） (2025-10-09T17:59:36Z)
Ensemble of Pre-Trained Models for Long-Tailed Trajectory Prediction [16.777053443258094]
本研究では,都市環境における車両の軌道予測の多次元回帰問題に対するアンサンブルモデルの適用について検討する。我々は、おそらく、最先端のディープラーニングモデルと単純な信頼度重み付き平均手法を組み合わせることで、全体的な予測が向上することを示す。
論文参考訳（メタデータ） (2025-09-17T11:18:16Z)
Future-Guided Learning: A Predictive Approach To Enhance Time-Series Forecasting [4.866362841501992]
本稿では、時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。提案手法は,重要な事象を特定するために将来的なデータを解析する検出モデルと,これらの事象を現在のデータに基づいて予測する予測モデルである。予測モデルと検出モデルの間に不一致が発生した場合、予測モデルはより実質的な更新を行う。
論文参考訳（メタデータ） (2024-10-19T21:22:55Z)
Motion Forecasting via Model-Based Risk Minimization [8.766024024417316]
複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。
論文参考訳（メタデータ） (2024-09-16T09:03:28Z)
Learning Long-Horizon Predictions for Quadrotor Dynamics [48.08477275522024]
四元数に対する長軸予測力学を効率的に学習するための鍵となる設計選択について検討する。逐次モデリング手法は,他のタイプの手法と比較して,合成誤差を最小限に抑える上での優位性を示す。本稿では,モジュール性の向上を図りながら,学習プロセスをさらに単純化する,疎結合な動的学習手法を提案する。
論文参考訳（メタデータ） (2024-07-17T19:06:47Z)
Certified Human Trajectory Prediction [66.1736456453465]
交通予知は自動運転車に不可欠な役割を担っている。本稿では,軌道予測作業に適した認証手法を提案する。非有界出力や変異モダリティを含む、軌道予測に関連する固有の課題に対処する。
論文参考訳（メタデータ） (2024-03-20T17:41:35Z)
Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文参考訳（メタデータ） (2024-02-12T16:15:25Z)
Koopman Invertible Autoencoder: Leveraging Forward and Backward Dynamics for Temporal Modeling [13.38194491846739]
我々は、Koopman Invertible Autoencoders (KIA) と呼ぶ、Koopman演算子理論に基づく新しい機械学習モデルを提案する。 KIAは、無限次元ヒルベルト空間における前方と後方のダイナミクスをモデル化することによって、システムの固有の特性を捉えている。これにより,低次元表現を効率よく学習し,長期システムの挙動をより正確に予測することが可能になる。
論文参考訳（メタデータ） (2023-09-19T03:42:55Z)
EquiDiff: A Conditional Equivariant Diffusion Model For Trajectory Prediction [11.960234424309265]
本研究では,将来の車両軌道予測のための深部生成モデルであるEquiDiffを提案する。 EquiDiffは、過去の情報とランダムなガウスノイズを組み込んで将来の軌跡を生成する条件拡散モデルに基づいている。以上の結果から,EquiDiffは短期予測では他のベースラインモデルよりも優れているが,長期予測では誤差が若干高いことがわかった。
論文参考訳（メタデータ） (2023-08-12T13:17:09Z)
Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文参考訳（メタデータ） (2022-06-07T13:51:35Z)
Uncertainty estimation of pedestrian future trajectory using Bayesian approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文参考訳（メタデータ） (2022-05-04T04:23:38Z)
Uncertainty-Aware Time-to-Event Prediction using Deep Kernel Accelerated Failure Time Models [11.171712535005357]
本稿では,時間-時間予測タスクのためのDeep Kernel Accelerated Failure Timeモデルを提案する。我々のモデルは、2つの実世界のデータセットの実験において、繰り返しニューラルネットワークに基づくベースラインよりも良い点推定性能を示す。
論文参考訳（メタデータ） (2021-07-26T14:55:02Z)
Back2Future: Leveraging Backfill Dynamics for Improving Real-time Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文参考訳（メタデータ） (2021-06-08T14:48:20Z)
Learning Interpretable Deep State Space Model for Probabilistic Time Series Forecasting [98.57851612518758]
確率的時系列予測は、その歴史に基づいて将来の分布を推定する。本稿では,非線形エミッションモデルと遷移モデルとをネットワークによってパラメータ化した,確率的時系列予測のための深部状態空間モデルを提案する。実験では,我々のモデルが正確かつ鋭い確率予測を生成することを示す。
論文参考訳（メタデータ） (2021-01-31T06:49:33Z)
Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文参考訳（メタデータ） (2020-10-27T17:54:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。