論文の概要: Efficient Dynamics Modeling in Interactive Environments with Koopman
Theory
- arxiv url: http://arxiv.org/abs/2306.11941v2
- Date: Wed, 12 Jul 2023 15:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 18:46:42.620302
- Title: Efficient Dynamics Modeling in Interactive Environments with Koopman
Theory
- Title(参考訳): クープマン理論を用いた対話環境における効率的なダイナミクスモデリング
- Authors: Arnab Kumar Mondal, Siba Smarak Panigrahi, Sai Rajeswar, Kaleem
Siddiqi, Siamak Ravanbakhsh
- Abstract要約: 本稿では, エージェントの動作を毎回考慮しながら, 畳み込みを用いた長距離予測の逐次的問題を効率的に並列化する方法を示す。
また、モデルベース計画とモデルフリーRLの両方のシナリオに対する動的モデリングの有望な実験結果を報告する。
- 参考スコア(独自算出の注目度): 17.015027797356765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accurate modeling of dynamics in interactive environments is critical for
successful long-range prediction. Such a capability could advance Reinforcement
Learning (RL) and Planning algorithms, but achieving it is challenging.
Inaccuracies in model estimates can compound, resulting in increased errors
over long horizons. We approach this problem from the lens of Koopman theory,
where the nonlinear dynamics of the environment can be linearized in a
high-dimensional latent space. This allows us to efficiently parallelize the
sequential problem of long-range prediction using convolution, while accounting
for the agent's action at every time step. Our approach also enables stability
analysis and better control over gradients through time. Taken together, these
advantages result in significant improvement over the existing approaches, both
in the efficiency and the accuracy of modeling dynamics over extended horizons.
We also report promising experimental results in dynamics modeling for the
scenarios of both model-based planning and model-free RL.
- Abstract(参考訳): 対話環境におけるダイナミクスの正確なモデリングは、長距離予測の成功に不可欠である。
このような能力は強化学習(RL)と計画アルゴリズムを前進させるが、達成は困難である。
モデル推定の不正確さは複雑になり、長い水平線上の誤差が増加する。
我々は、環境の非線形ダイナミクスを高次元潜在空間で線形化することができるクープマン理論のレンズからこの問題にアプローチする。
これにより,畳み込みを用いた長距離予測の逐次問題を,時間ステップ毎にエージェントの動作を考慮しつつ効率的に並列化することができる。
提案手法は安定性解析と時間経過による勾配制御も可能とした。
これらの利点は、拡張水平線上のモデリング力学の効率と精度の両方において、既存のアプローチよりも大幅に改善される。
また、モデルベース計画とモデルフリーRLの両方のシナリオに対する動的モデリングの有望な実験結果を報告する。
関連論文リスト
- Deep Learning for Koopman Operator Estimation in Idealized Atmospheric Dynamics [2.2489531925874013]
ディープラーニングは、気象予報に革命をもたらしており、新しいデータ駆動モデルは、中期予測のための運用物理モデルと同等の精度を達成している。
これらのモデルは解釈可能性に欠けることが多く、基礎となる力学を理解するのが難しく、説明が難しい。
本稿では、データ駆動モデルの透明性を高めるために、複雑な非線形力学の線形表現を提供するクープマン作用素を推定する手法を提案する。
論文 参考訳(メタデータ) (2024-09-10T13:56:54Z) - Learning Long-Horizon Predictions for Quadrotor Dynamics [48.08477275522024]
四元数に対する長軸予測力学を効率的に学習するための鍵となる設計選択について検討する。
逐次モデリング手法は,他のタイプの手法と比較して,合成誤差を最小限に抑える上での優位性を示す。
本稿では,モジュール性の向上を図りながら,学習プロセスをさらに単純化する,疎結合な動的学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T19:06:47Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - eXponential FAmily Dynamical Systems (XFADS): Large-scale nonlinear Gaussian state-space modeling [9.52474299688276]
非線形状態空間グラフィカルモデルのための低ランク構造化変分オートエンコーダフレームワークを提案する。
我々のアプローチは、より予測的な生成モデルを学ぶ能力を一貫して示している。
論文 参考訳(メタデータ) (2024-03-03T02:19:49Z) - Disentangled Neural Relational Inference for Interpretable Motion
Prediction [38.40799770648501]
グラフベース表現と時系列モデルを統合した変分自動エンコーダフレームワークを開発した。
本モデルでは,対話を特徴付ける解釈可能なエッジ特徴を付加した動的相互作用グラフを推論する。
シミュレーションと実世界の両方のデータセットに関する広範な実験を通じて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-01-07T22:49:24Z) - Learning Space-Time Continuous Neural PDEs from Partially Observed
States [13.01244901400942]
格子独立モデル学習偏微分方程式(PDE)を雑音および不規則格子上の部分的な観測から導入する。
本稿では、効率的な確率的フレームワークとデータ効率とグリッド独立性を改善するための新しい設計エンコーダを備えた時空間連続型ニューラルネットワークPDEモデルを提案する。
論文 参考訳(メタデータ) (2023-07-09T06:53:59Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。