論文の概要: No Need for Interactions: Robust Model-Based Imitation Learning using
Neural ODE
- arxiv url: http://arxiv.org/abs/2104.01390v1
- Date: Sat, 3 Apr 2021 12:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:15:19.814702
- Title: No Need for Interactions: Robust Model-Based Imitation Learning using
Neural ODE
- Title(参考訳): インタラクション不要:neural odeを用いたロバストなモデルベース模倣学習
- Authors: HaoChih Lin, Baopu Li, Xin Zhou, Jiankun Wang, Max Q.-H. Meng
- Abstract要約: モデルベース学習フレームワークは、エンドツーエンドの微分可能な非線形閉ループ追跡問題として模倣学習をキャストする。
RMBILは最先端のジェネレーティブ・逆境法 (GAIL) と競合し, 行動クローン (BC) よりも30%以上の性能向上を実現していることを示す。
Mujoco タスクの実験では、RMBIL は最先端の生成逆数法 (GAIL) と競合し、不均一表面における BC よりも少なくとも30%の性能向上を達成している。
- 参考スコア(独自算出の注目度): 35.354711570221376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactions with either environments or expert policies during training are
needed for most of the current imitation learning (IL) algorithms. For IL
problems with no interactions, a typical approach is Behavior Cloning (BC).
However, BC-like methods tend to be affected by distribution shift. To mitigate
this problem, we come up with a Robust Model-Based Imitation Learning (RMBIL)
framework that casts imitation learning as an end-to-end differentiable
nonlinear closed-loop tracking problem. RMBIL applies Neural ODE to learn a
precise multi-step dynamics and a robust tracking controller via Nonlinear
Dynamics Inversion (NDI) algorithm. Then, the learned NDI controller will be
combined with a trajectory generator, a conditional VAE, to imitate an expert's
behavior. Theoretical derivation shows that the controller network can
approximate an NDI when minimizing the training loss of Neural ODE. Experiments
on Mujoco tasks also demonstrate that RMBIL is competitive to the
state-of-the-art generative adversarial method (GAIL) and achieves at least 30%
performance gain over BC in uneven surfaces.
- Abstract(参考訳): 現在の模倣学習(il)アルゴリズムのほとんどでは、トレーニング中の環境や専門家ポリシーとのインタラクションが必要である。
相互作用のないil問題に対して、典型的なアプローチはビヘイビアクローニング(bc)である。
しかし、BC様の手法は分布シフトの影響を受けやすい。
この問題を軽減するため、我々はモデルベース模倣学習(rmbil)フレームワークを考案し、模倣学習をエンドツーエンドの微分可能非線形閉ループ追跡問題としてキャストする。
RMBILは、非線形ダイナミクスインバージョン(NDI)アルゴリズムを用いて、正確なマルチステップダイナミクスと堅牢なトラッキングコントローラを学ぶためにNeural ODEを適用している。
学習したNDIコントローラは、専門家の行動を模倣するために、軌道生成器、条件付きVAEと結合される。
理論的導出は、ニューラルODEのトレーニング損失を最小限に抑えるために、コントローラネットワークがNDIを近似できることを示している。
Mujoco タスクの実験では、RMBIL は最先端の生成逆数法 (GAIL) と競合し、不均一表面における BC よりも少なくとも30%の性能向上を達成している。
関連論文リスト
- Balanced Neural ODEs: nonlinear model order reduction and Koopman operator approximations [0.0]
変分オートエンコーダ(VAE)はコンパクトな潜在表現を学習するための強力なフレームワークである。
ニューラルネットワークは過渡系力学の学習において優れている。
この研究は両者の強みを組み合わせることで、高速な代理モデルと調整可能な複雑さを生み出す。
論文 参考訳(メタデータ) (2024-10-14T05:45:52Z) - Model-Based Control with Sparse Neural Dynamics [23.961218902837807]
モデル学習と予測制御を統合した新しいフレームワークを提案する。
我々は,既存の最先端手法よりもクローズドループ性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-12-20T06:25:02Z) - Experimental study of Neural ODE training with adaptive solver for
dynamical systems modeling [72.84259710412293]
アダプティブと呼ばれるいくつかのODEソルバは、目の前の問題の複雑さに応じて評価戦略を適用することができる。
本稿では,動的システムモデリングのためのブラックボックスとして適応型ソルバをシームレスに利用できない理由を示すための簡単な実験について述べる。
論文 参考訳(メタデータ) (2022-11-13T17:48:04Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Latent Neural ODEs with Sparse Bayesian Multiple Shooting [13.104556034767025]
長い軌道上でのニューラルODEなどの動的モデルのトレーニングは、モデルトレーニングを実際に動作させるためには、軌道分割のような様々なトリックを使用する必要がある難しい問題である。
本稿では,並列に最適化されたトラジェクトリを管理可能なショートセグメントに分割する,ニューラルネットワークの多射法を提案する。
複数の大規模ベンチマークデータセット上で、効率的で安定したトレーニングと最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-10-07T11:36:29Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Distributional Gradient Matching for Learning Uncertain Neural Dynamics
Models [38.17499046781131]
本稿では,数値積分ボトルネックを回避するため,不確実なニューラル・オーダを推定するための新しい手法を提案する。
我々のアルゴリズム - 分布勾配マッチング (DGM) は、よりスムーズなモデルと動的モデルを共同で訓練し、ワッサーシュタイン損失を最小化することでそれらの勾配と一致する。
数値積分に基づく従来の近似推論手法と比較して,我々の手法は訓練がより速く,これまで見つからなかった軌道の予測がより高速であり,ニューラルODEの文脈では,はるかに正確であることがわかった。
論文 参考訳(メタデータ) (2021-06-22T08:40:51Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Accelerating Neural ODEs Using Model Order Reduction [0.0]
本稿では,ニューラルネットワークの圧縮と高速化に数学的モデルオーダー削減法が利用できることを示す。
我々は,ニューラルネットワークの層として必要な部分空間投影と操作を統合するニューラルODEを開発することで,新しい圧縮手法を実装した。
論文 参考訳(メタデータ) (2021-05-28T19:27:09Z) - Reinforcement Learning with External Knowledge by using Logical Neural
Networks [67.46162586940905]
論理ニューラルネットワーク(LNN)と呼ばれる最近のニューラルシンボリックフレームワークは、ニューラルネットワークとシンボリックロジックの両方のキープロパティを同時に提供することができる。
外部知識ソースからのモデルフリー強化学習を可能にする統合手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T12:34:59Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。