論文の概要: Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach
- arxiv url: http://arxiv.org/abs/2411.08232v1
- Date: Tue, 12 Nov 2024 22:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:15.301634
- Title: Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach
- Title(参考訳): 観察からの模倣学習:専門家アプローチの自己回帰混合
- Authors: Renzi Wang, Flavia Sofia Acerbo, Tong Duy Son, Panagiotis Patrinos,
- Abstract要約: 本稿では,観察から得られた模倣学習の新たなアプローチとして,専門家モデルの自己回帰混合を,その基礎となる方針に適合させる手法を提案する。
提案手法の有効性を,人間の実演から収集した2つの自律走行データセットを用いて検証した。
- 参考スコア(独自算出の注目度): 2.4427666827706074
- License:
- Abstract: This paper presents a novel approach to imitation learning from observations, where an autoregressive mixture of experts model is deployed to fit the underlying policy. The parameters of the model are learned via a two-stage framework. By leveraging the existing dynamics knowledge, the first stage of the framework estimates the control input sequences and hence reduces the problem complexity. At the second stage, the policy is learned by solving a regularized maximum-likelihood estimation problem using the estimated control input sequences. We further extend the learning procedure by incorporating a Lyapunov stability constraint to ensure asymptotic stability of the identified model, for accurate multi-step predictions. The effectiveness of the proposed framework is validated using two autonomous driving datasets collected from human demonstrations, demonstrating its practical applicability in modelling complex nonlinear dynamics.
- Abstract(参考訳): 本稿では,観察から得られた模倣学習の新たなアプローチとして,専門家モデルの自己回帰混合を,その基礎となる方針に適合させる手法を提案する。
モデルのパラメータは2段階のフレームワークを通じて学習される。
既存の動的知識を活用することにより、フレームワークの第1段階は制御入力シーケンスを推定し、したがって問題複雑性を低減する。
第2段階では、推定制御入力シーケンスを用いて、正規化最大形推定問題を解くことでポリシーを学習する。
同定されたモデルの漸近安定性を確保するために,リャプノフ安定性制約を組み込むことにより,学習手順をさらに拡張し,精度の高い多段階予測を行う。
提案手法の有効性は, 人間の実演から収集した2つの自律運転データセットを用いて検証し, 複雑な非線形力学のモデル化における実用性を示す。
関連論文リスト
- The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [37.387280102209274]
オフライン強化学習は、事前に収集されたデータセットからエージェントをトレーニング可能にすることを目的としている。
モデルベースの手法は、エージェントが学習されたダイナミックスモデルでロールアウトを介して追加の合成データを収集できるようにすることで、ソリューションを提供する。
しかし、学習したダイナミックスモデルを真のエラーフリーなダイナミックスに置き換えると、既存のモデルベースのメソッドは完全に失敗する。
本稿では, エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Value Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - An Experimental Study of Semantic Continuity for Deep Learning Models [11.883949320223078]
意味的不連続性は、不適切な訓練対象から生じ、敵対的堅牢性や解釈可能性などの悪名高い問題に寄与すると主張している。
まず、既存のディープラーニングモデルにおける意味的不連続性の証拠を提供するためにデータ分析を行い、その後、理論上モデルがスムーズな勾配を得ることができ、セマンティック指向の特徴を学習できる単純な意味的連続性制約を設計する。
論文 参考訳(メタデータ) (2020-11-19T12:23:28Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。